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随 看 内 存 技术 的 发 展 和 智能 终端 对 数据 交互 性 能 的 要 求 日 趋 提 

SSD 被 越 来 越 多 地 应 用 于 各 种 场景 中 。 本 书 围绕 SSD 的 产品 、 技 
、 应 用 等 角度 展开 阐述 ， 既 疗 谨 又 全 面 ， 给 SSD 的 从 业 人 员 和 爱好 
们 提供 了 一 个 完整 的 视图 。 
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陈强 ，“ 硅 格 半导体 市 场 总 监 


本 人 从 2008 年 起 加 入 固态 硬盘 行业 。 相 信 大 多 数 从 业者 跟 我 的 感 
觉 一 样 : 希望 能 够 系统 而 深入 地 学 习 固态 硬盘 技术 ， 但 国内 却 很 难 找 
到 一 本 专业 书籍 。 本 书 对 固态 硬盘 工作 原理 、 接 口 形 态 、 市 场 应 用 等 
基础 知识 ， 以 及 控制 器 底层 的 各 种 算法 ， 都 进行 了 详尽 介绍 。 无 论 是 
对 于 固态 硬盘 行业 的 从 业者 、 技 术 开发 者 、 市 场 人 员 ， 还 是 对 于 投资 
人 、 终 端 用 户 ， 本 书 都 是 不 可 或 缺 的 学 习 和 参考 经 典 。 


一 一 楚 一 兵 ”深圳 市 瑞 耐 斯 技术 有 限 公 司 CEO 


固态 存储 无 疑 已 成 为 主流 ， 从 移动 装置 到 云 ， 都 已 全 面 应 用 。 本 
书 从 固态 硬盘 的 发 展 史 到 技术 应 用 ， 都 进行 了 专业 剖析 和 详细 说 明 ， 
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专业 书籍 。 
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存储 领域 的 中 文 技术 书籍 一 直 比 较 匮 乏 ， 关 于 SSD 固 态 存 储 的 书 
籍 更 是 如 此 。 听 说 这 本 书 汇集 了 SSDFans 五 位 运营 者 一 年 的 努力 ， 深 
感 不 易 。 再 看 目录 也 十 大 而 全 ， 从 故 层 到 应 用 ， 从 NAND 介 质 到 内 存 
系统 ， 从 知识 普及 到 深入 的 技术 细 记 ， 全 都 有 深入 庆 析 。 无 论 是 SSD 
Uh 还 是 技术 爱好 者 ， 这 部 全 面 而 系统 的 著作 都 值得 大 家 学 


一 一 黄 亮 《企业 存储 技术 》 微 信 公 众 号 作者 


作为 硬件 领域 最 重要 的 单 合 之 一 一 一 内 存 革 命 正 在 深刻 地 改变 着 
IT 的 基础 架构 ， 并 改变 着 人 们 获取 信息 的 方式 。 理 解 内 存 区 别 于 磁性 
介质 的 特点 和 SSD 不 同 于 HDD 的 “ 怪 脾 气 ”， 对 于 高 效 存储 架构 设计 极 
为 天 键 。 这 本 书市 我 们 近 距 离 观 察 SSD 在 最 近 十 多 年 的 发 展演 进 ， 并 
结合 内 存 的 特点 把 通信 、 计 算 机 等 技术 贯穿 起 来 ， 实 现 一 个 接近 理想 


的 、 高 效 的 和 可 靠 的 存储 以 构 。 


一 一 路 丫 峰 忆 恒 创 源 CTO 


推荐 序 一 


言 思 存 储 记 录 历 史 、 传 夭 文明 ， 是 人 类 社会 延续 和 发 展 不 可 或 缺 
的 重要 手段 。 一 个 时 代 有 多 种 存储 介质 ， 但 总 有 一 种 存储 介质 是 主流 
介质 。 古 埃及 人 用 的 莎 草 纸 、 早 期 欧洲 人 用 的 羊皮 纸 、 中 国人 用 的 竹 
简 以 及 后 来 的 纸张 ， 都 曾 作为 主流 介质 被 广泛 使 用 。 进 入 数字 时 代 ， 
以 硬盘 为 核心 的 磁 记 录 介 质 一 直 是 非 易 失 性 存储 的 主流 介质 。 然 而 ， 
由 于 内 存 (Flash Memory) 技术 的 迅猛 发 展 ， 这 种 局 面 即将 发 生 重 大 
转弯。 闪存 介 质 在 各 类 存储 卡 、 固 态 硬 盘 和 全 闪存 阵列 中 大 量 应 用 ， 
不 论 在 终端 还 是 在 云端 ， 闪 存 已 无 处 不 在 。 闪存 介 质 中 存储 的 人 类 社 
子 储 介质 。 


固态 硬盘 (Solid State Disk, SSD) 是 以 闪存 介质 为 主 的 一 种 极为 
重要 的 存储 产品 ， 它 广泛 应 用 于 移动 终端 、 笔 记 本 电脑 、 台 式 机 、 服 
务 器 和 数据 中 心 等 场合 ， 需 求 量 极 大 。 与 传统 的 机 械 人 硬盘 相 比 ， 固 态 
硬盘 的 性 能 优势 特别 突出 。 由 于 取消 了 机 械 部 件 ， 旋 转 和 寻 道 的 延迟 
完全 消除 ， 固 态 便 盘 在 读 写 速度 上 远 优 于 机 械 硬 盘 ， 特 别 是 在 大 吞吐 
率 的 随机 读 写 性 能 上 有 了 几 个 数量 级 的 提高 ， 在 性 能 要 求 高 的 应 用 场 
合 已 成 为 首选 。 与 机 械 硬 盘 相 比 ， 固 态 人 硬盘 的 容量 和 价格 曾 是 其 成 为 
主流 的 障碍 。 但 随 着 闪存 芯片 容量 的 迅速 增加 和 成 本 的 快速 下 降 ， 恩 
态 便 盘 的 最 大 容量 已 超过 机 械 便 盘 ， 单 位 容量 价格 也 日 益 趋 近 高 性 能 
机 械 硬 盘 的 价格 ， 并 将 在 未 来 的 几 年 之 中 与 之 持平 ， 之 后 将 逐步 取代 
大 容量 机 械 硬 盘 。 


对 固态 硬盘 这 样 一 种 量 大 面 广 的 重要 存储 设备 ， 无 论 是 其 设计 
者 、 和 生产 者 还 是 应 用 者 ， 部 迫切 希望 对 其 工作 原理 和 关键 技术 有 一 个 
全 面 的 了 解 。 然 而 ， 目 前 关于 固态 硬盘 的 各 种 知识 和 资料 散落 于 各 类 
学 术 论文 和 网 上 的 技术 介绍 ， 市 面 上 系统 介绍 固态 硬盘 技术 的 书籍 并 
不 多 见 。 本 书 的 出 版 恰 估 其 时 ， 满 足 了 广大 读者 的 需求 ， 征 一 本 全 面 
介绍 固态 人 硬盘 技术 的 书籍 。 


固态 硬 弄 一 般 采 用 NAND 闪 存心 片 作为 基本 组 件 ， 对 闪存 心 片 特 
性 的 透彻 了 解 生理 解 固态 硬 弄 工作 原理 的 基础 。NAND 闪 存 用 电 傈 存 
储 信息 ， 其 重要 特点 十 和 完 擦 后 写 ， 探 写 寿命 有 限 。 随 看 密度 提高 ， 引 
起 了 单元 电 奏 数 的 减少 及 绝 缘 层 变 薄 ， 从 而 使 得 NAND 内 存 的 原始 误 
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不 到 1 千 次 。 用 这 样 一 种 高 误 码 率 、 短 奉命 的 发 片 来 构成 长 寿命、 高 性 
能 、 高 可 靠 的 固态 便 弄 ， 需 要 发 展 一 系列 系统 层面 的 技术 ， 如 地 址 轴 
于 、 磨 损 均 衡 、 垃 圾 回收 、 坏 块 管理 等 ， 还 需要 发 展 新 的 纠 错 编 码 理 
论 、 算 法 和 实现 技术 来 保证 数据 的 正确 性 和 可 靠 性 。 为 了 能 与 主机 进 
行 高 性 能 连接 与 通信 ， 需 要 发 展 与 固 仿 介 质 相 适 应 的 高 速 接口 和 通信 
协议 。 上 述 系统 层面 的 技术 不 仅 需 要 特别 设计 的 便 件 控制 硕 来 实现 ， 

还 需要 确 层 固件 的 文 持 。 固 态 硬 盘 品 质 的 优 务 ， 不 仅 反 映 在 初期 使 用 
的 性 能 上 ， 还 反映 在 大 负载 长 期 使 用 后 性 能 和 可 靠 性 的 保持 能 力 上 ， 

故 需要 发 展 与 固态 硬盘 相 适 应 的 评测 技术 。 上 述 内 容 都 是 因 固态 硬盘 
的 出 现 而 发 展 出 来 的 新 技术 和 痢 知 识 ， 本 书 以 一 种 深入 浅 出 的 风格 系 
统 地 阐述 了 这 些 内 容 。 


值得 特别 指出 的 是 ， 本 书 作者 不 仅 是 在 第 一 线 从 事 固态 硬盘 设 

计 、 有 着 次 厚 专 业 知 识 的 人 资深 工程 师 ， 还 是 一 群 热 衷 于 普及 固态 硬盘 
知识 的 写作 高 手 。 他 们 创立 了 SSDFans 微 信 群 和 微 信 公 众 号 ， 发 表 了 
大 量 关 于 固态 硬盘 技术 和 市 场 的 文章 ， 尤 其 在 技术 内 容 的 阐述 上 形成 
了 深入 浅 出 、 通 俗 幽 默 的 写作 风格 ， 读 来 使 人 兴趣 如 然 。 我 束 经 党 进 
入 这 个 微 信和 群 阅读 那些 十 分 有 趣 的 短文 ， 获 得 了 不 少 新 的 技术 知识 和 
市 场 信息 。 本 书 延 续 了 SSDFans 微 信 群 的 写作 风格 ， 相 信 读 者 在 阅读 
时 一 定 会 体验 到 其 中 的 乐趣 。 


我 国 在 磁 记 录 介 质 时 代 错 失 了 大 力 发 展 硬 盘 产 业 的 机 会 ， 从 而 导 
致使 用 数量 十 分 怀 人 的 硬盘 全 部 依赖 进口 。 除 了 花费 巨 量 外 汇 之 外 ， 
信息 安全 也 存在 着 问题 。 我 国 已 意识 到 信息 存储 产业 的 极端 重要 性 ， 
大 力 发 展 内 存 产业 已 成 为 国家 意志 。 我 国 已 投入 巨 资 建立 3D 闪 存 必 片 
制造 基地 ， 有 望 解决 基础 器 件 的 问题 。 为 了 使 我 国 成 为 内 存 时 代 国 际 
舞台 上 的 主角 ， 建 立 包括 芯片 颗粒 、 挥 制 右 、 固 态 人 硬盘 盘 阵 等 环节 
的 全 产业 链 十 分 必要 。 固 态 硬盘 不 仅 是 量 大 面 广 的 产品 ， 也 是 连接 内 
存 上 下 游 产 业 最 重要 的 一 环 。 相 信 本 书 的 出 版 能 推动 固态 硬盘 技术 知 
e LR 
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内 存 成 为 主流 存储 介质 的 时 代 来 临 ， 国 际 舞 台 将 精彩 纷呈 ， 中 国 
一 定 不 能 缺席 。 


谢 长 生 “教授 


ERRAK F RTOC ERAR PÒ 
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TEXEFF — 


作为 《大 话 存储 (终极 版 )》 以 及 《大 话 存 储 (后 传 ) 》 的 作 
者 ， 我 有 垃 经 历 了 国内 存储 行业 发 展 的 启蒙 和 鼎盛 时 代 。 在 2005 年 到 
2013 年 这 8 年 间 ， 存 储 市 场 基本 就 是 SAN 的 市 场 ， 谈 存储 必 暗 指 SAN e 
但 是 从 2014 年 往 后 ， 存 储 行业 突然 发 生 巨 大 变化 ， 分 布 式 系统 和 固态 
存储 介质 开始 呈 爆 发 式 增长 。 今 天 ， 谈 存储 如 果 不 谈 一 谈 配 以 固态 便 
盘 的 分 布 式 系统 ， 就 仿佛 是 上 个 时 代 的 人 了 。 


分 布 式 系统 的 发 展 有 三 个 技术 条 件 : 高 速 网 络 、 大 容量 硬盘 、 固 
态 介质 。 这 三 者 彻底 解放 了 分 布 式 系 统 的 生产 力 。 通 俗 一 点 说 也 束 
是 : WART ` RREA O GSXBDUIsmEEPMA Gd IGRZUMI 
以 生存 的 根本 ， 分 布 式 存储 系统 早 在 20 世 纪 中 后 期 就 已 经 形成 了 理论 
基础 ， 但 是 一 直到 近 几 年 ， 网 络 的 时 延 和 带宽 才 足 以 支撑 分 布 式 系统 
架构 。 为 了 降低 成 本 ， 业 界 兴 起 所 谓 软件 定义 ， 也 就 是 利用 廉价 日 牌 
机 或 者 标准 的 机 架 服务 器 ， 加 上 分 布 式 存 储 软件 管理 层 ， 搭 建 出 软件 
定义 分 布 式 存储 系统 ， 与 传统 的 SAN 存 储 系统 瓜分 市 场 。 而 分 布 式 系 
统 的 大 行 其 道 ， 极 大 地 促进 了 固态 存储 的 需求 量 ， 因 为 出 于 成 本 考 
量 ， 分 布 式 系统 中 每 个 节点 往往 不 会 连接 多 级 JBOD 从 而 靠 大 量 的 硬盘 
形成 高 并 发 性 能 ， 而 是 只 靠 每 个 服务 器 目 市 的 少量 盘 位 ， 加 上 固态 盘 
来 抵消 路 网络 通 信 带 来 的 时 延 增加 ， 形 成 让 传统 机 械 盘 系统 望尘莫及 
的 IOPS 和 时 延性 能 。 


可 以 说 ， 国 态 存储 对 系统 架构 和 存储 市 场 都 有 着 颠覆 性 的 影响 。 
构建 在 大 量 机 械 硬盘 基础 之 上 的 传统 SAN 存 储 架 构 不 得 不 为 固态 存储 
重新 定制 ， 而 固态 存储 让 整个 存储 系统 架构 变 得 更 加 简单 ， 这 样 SAN 
存储 的 门槛 更 低 了 ， 从 而 失去 了 核心 竞争 力 。 目 前 采用 传统 SAN 存 储 
染 构 的 存储 系统 相 比 新 兴 存 储 系统 ， 唯 一 一 个 不 可 撼动 的 优势 就 是 其 
高 可 靠 性 ， 体 现在 两 方面 : 一 是 硬件 部 件 双 宛 余 设计 ; 二 是 在 硬盘、 
HBA 卡 可 靠 性 方面 长 期 积累 的 经 验 。 


回 态 存储 近年 来 在 国内 的 发 展 势头 迅猛 ， 造 号 了 众多 本 土 的 、 目 
主人 研发 的 、 与 内 存 相 关 的 企业 ， 其 中 有 些 为 SSD 整 盘 提 供 商 ， 有 些 为 
目 主 研 发 5SD 主 控 的 企业 ， 有 些 为 副 和 主 控 兼 有 的 企业 。 长 期 以 来 ， 
机 械 硬 盘 的 核心 技术 被 少数 儿 家 企业 掌控 ， 门 槛 极 高 。 而 固态 存储 的 
入 门 门框 极 大 降低 ， 在 人 研发 NAND 主 控 方面 ， 相 比 于 机 械 硬盘 ， 无 论 


是 在 技术 储备 、 技 术 实 现 上 ， 还 是 在 人 员 、 物 料 成 本 上 ， 都 变 得 可 以 
接受 。 然 而 ， 这 并 不 意味 着 NAND 闪 存 及 其 控制 器 、 固 件 等 一 整套 系 
统 可 以 被 轻易 区 级 。 闪 存 技术 领域 包含 很 多 的 复杂 概念 及 复杂 算法 ， 
比如 SLC/MLC/TLC/QLC、3D NAND、 人 快慢 页 、 上 下 页 、 局 部 /全 局 磨 
损 均 衡 、 擦 1 写 0、 垃 圾 回收 、Device/Host Based FTL、 元 数据 保护 机 
制 、 页 面 映射 ~、NVMe、PCIE/SATA/SAS ` SPDK/DPDK ` RDMA ` 
NVMe Over Fabric、LDPC/BCH 等 ， 这 些 概 念 相 比 传统 存储 系统 更 加 
接近 底层 和 也 更 加 精细 ， 需 要 更 高 的 学 习 成 本 。 


业 弄 迫切 需要 一 本 全 面前 述 、 梳 理 固 态 存 储 砌 层 技术 的 图 书 。 本 
书 的 面世 ， 可 谓 是 雪中送炭 ， 其 及 时 满足 了 广大 固态 存储 行业 从 业 考 
学 习 了 解 固态 存储 相关 知识 的 需求 。 


SSDFans 团 队 由 知名 闪存 挥 制 器 三 丙 的 工程 师 组 成 ， 维 护 着 
SSDFans 微 信 公众 号 ， 以 较 高 频率 发 布 与 各 类 固态 存储 相关 的 技术 或 
市 场 类 文章 。 我 也 是 SSDFans 的 粉丝 之 一 ， 从 SSDFans 的 文章 中 学 到 不 
少 知识 。 写 书 不 易 ， 写 出 一 本 符合 人 脑 认 知 原生 态 思维 路 径 的 书 更 不 
易 。 作 为 全 面 、 系 统 、 深 度 介绍 固态 存储 技术 、 产 品 的 书籍 ， 本 书 语 
言 通俗 易 慌 ， 脉 络 清晰 。 本 书 不 仅 可 以 作为 固态 存储 行业 的 入 门 书 ， 
也 可 以 作为 广大 固态 存储 行业 从 业者 常备 的 参考 书 。 对 于 已 经 非常 资 
深 的 固态 存储 行业 人 员 来 说 ， 也 是 开 郑 有益， 因为 通过 本 书 他 们 可 碍 
漏 补 缺 ， 重 新 梳理 思路 。 


我 强烈 推荐 本 书 | 


为 什么 要 写 这 本 书 
这 十 一 个 真正 的 数据 大 爆炸 时 代 ， 看 得 见 ， 措 得 着 。 


我 们 每 天 都 在 生产 数据 : 发 朋友 圈 、 发 微 博 、 上 传 图 片 和 视频 到 
社区 网 站 、 备 份 数据 到 网 副 等 。 我 们 的 这 些 数 据 ， 不 是 存储 在 虚无 绿 
缘 的 云端 ， 而 是 存储 在 云 服 务 器 上 。 云 服务 右 的 核心 就 是 存储 介质 。 
无 论 是 云端 存储 ， 还 是 本 地 存储 ， 有 数据 的 地 方 隐 有 存储 介质 。 


传统 数据 存储 介质 有 人 磁带、 光盘 等 ， 但 更 多 的 是 人 硬盘 (HDD) 。 
随 着 数据 呈 爆 炸 式 增长 ， 对 数据 存储 介质 在 速度 上 上、 容量 上 有 更 高 的 
要 求 。 时 势 造 英雄 ， 固 态 硬盘 (Solid State Disk, SSD) 2 H tE 。 
SSD 使 用 电子 芯片 存储 数据 ， 没 有 HDD 的 机 械 式 部 件 ， 因 此 在 速度 、 
时 延 、 功 耗 、 抗 震 等 方面 ， 与 HDD 相 比 有 碾 压 式 优势 。 无 论 是 个 人 存 
E HS 都 在 逐渐 用 SSD 取 代 HDD 。 大 数据 时 代 ，SSD 必 
将 是 o 


HDD 时 代 我 们 错过 了 ; SSDBITC, defi DEDE T SOEUR EHL 
会 。 国 内 很 多 企业 都 希望 抓 住 这 个 机 遇 ， 所 以 他 们 研发、 制造 SSD， 
并 且 取 得 了 不 错 的 成 绩 ， 已 经 有 了 能 目 主 研发 SSD 及 SSD 探 制 磊 的 公 
司 。 国 家 层面 也 在 大 力 研 发 半导体 。 长 江 存 储 的 成 立 昭 示 了 国家 对 固 
态 存 储 这 块 的 态度 和 决心 。 


国内 SSD 领 域 的 从 业 人 员 ， 以 及 日 沼 使 用 SSD 的 人 越 来 越 多 ,但 
是 市 面 上 专门 介绍 SSD 技 术 的 中 文书 籍 少 之 又 少 。 作 为 国内 领先 的 
SSD 技 术 社 区 SSDFans 有 责任 、 有 义务 ， 也 有 动力 推出 一 本 中 文 
版 SSD 技 术 书 籍 。 


我 们 几 位 作者 ， 都 工作 在 SSD 的 最 前 线 ， 征 工程 师 出 身 ， 虽 文笔 
一 般 但 是 热情 十 足 ， 愿 意 分 译 对 技术 的 理解 。 项 望 这 块 夸 头 能 够 帮助 
您 融 开 SSD 的 大 门 ， 如 果 能 够 解决 您 的 一 些 实际 问题 ， 或 者 引发 您 的 
一 些 思 考 ， 我 们 更 是 不 胜 菏 幸 。 


最 后 ， 欢 迎 您 通过 网 站 (http//www.ssdfans.com ) 、 微 信 公 众 号 
(SSDFans) 来 进一步 了 解 我 们 ， 与 我 们 做 进一步 的 交流 。 


读者 对 象 


计算 机 、 电 子 相 关 专 业 的 在 校本 科 生 ， 存 储 方 癌 的 研究 生 : 通过 
阅读 本 书 ， 能 够 更 好 地 将 所 学 的 理论 与 业界 实践 结合 ， 对 相关 知识 有 
更 加 深刻 的 理解 ， 为 未 来 加 入 企业 打 好 坚实 的 基础 。 


.SSD 人 研发 企业 的 员工 : 通过 阅读 本 书 ， 可 以 全 面 学 习 与 SSD 相 关 
的 人 硬件、 协议 、 固 件 以 及 测试 等 各 方面 的 基础 知识 ， 提 升 整体 认 知 ， 
具备 完整 、 系 统 的 理论 知识 。 

.企业 IT 运 维 人 员 : 通过 阅读 本 书 ， 可 以 充分 了 解 SSD 的 优 劣 之 处 
及 其 适用 的 工作 场景 ， 为 公司 的 IT 部 署 过 程 提 供 技术 支持 ， 实 现 整 体 
运营 成 本 的 最 优 配置 。 


.广大 的 DIVY、 游 戏 爱好 者 ;通过 阅读 本 书 ， 可 以 学 会 如 何 选择 最 
适合 自己 的 SSD， 以 合理 投入 获得 更 好 的 娱乐 体验 。 


.对 SSD 产 业 感 兴趣 的 投资 人 : 通过 阅读 本 书 ， 可 以 全 面 了 解 SSD 
产业 的 现状 ， 掌 握 基本 的 技术 术语 ， 以 便 更 好 地 与 企业 沟通 。 


:其 他 对 SSD 知 识 感 兴趣 的 人 。 


本 书 特色 

本 书 的 作者 团队 都 在 业内 知名 公司 任职 ， 具 备 丰 晤 的 理论 和 实践 
知识 。 同 时 ， 日 前 维护 公众 号 期 间 ， 跟 读者 的 频 蛇 互动 也 保证 了 知识 
的 更 新 速度 。 

在 撰写 本 书 的 过 程 中 ， 作 者 们 能 够 对 技术 原理 做 深入 浅 出 的 图 
述 ， 并 结合 自身 工作 经 验 给 出 意见 。 


本 书 主要 内 容 


A-BBJIAVEJLA E SS F'SSDSS T EEER, BERI LENKA TB 
进行 通读 ， 也 可 以 在 需要 的 时 候 作 为 工具 书 进行 查阅 。 


KENARA. SSD 基 础 知识 、SSD 各 模块 介绍 及 SSD 测 试 相关 内 


m 


SSD 基 础 知识 包括 : SSD 与 HDD 的 比较 、SSD 的 发 展 历 史 、 产 品 
形态 、 整 体 架构 和 基本 工作 原理 。 


模块 介绍 包括 : 


-FTL 内 存 转 换 层 ， 作 为 SSD 国 件 的 核心 部 分 ，FTL 实 现 了 例如 映 
员 管 理 、 磨 损 均 衡 、 坪 圾 回收 、 坏 块 管理 等 诸多 功能 ， 本 书 将 一 一 介 


ZH o 


.NAND Flash: NAND Flash 作 为 SSD 的 存储 介质 ， 具 有 很 多 与 传 
统 磁 介质 不 同 的 特性 ， 本 书 将 从 器 件 原 理 、 实 战 指南 、 闪 存 特性 及 数 
据 完 整 性 等 方面 展开 。 


.NVMe 存 储 协 议 : 作为 专门 为 SSD 开 发 的 软件 存储 协议 ，NVMe 
正在 迅速 占领 SSD 市 场 。 本 书 将 从 其 优势 、 基 础 架构 、 寻 址 方式 、 数 
据 安 全 等 方面 展开 。 为 了 让 读者 对 NVMe 命 令 处 理 有 更 加 直观 的 认 
识 ， 本 书 结合 实际 的 PCIe trace 进 行 前 述 。 同 时 ， 本 书 也 介绍 了 NVMe 
pone 相关 知识 ， 让 读者 能 够 对 未 来 网 络 与 存储 的 发 展 趋势 有 

M 


:PCIe 协议 : PCIe 作 为 目前 主流 的 SSD 前 端 总 线 ， 与 之 前 的 SATA 接 
口 相 比 有 着 极 大 的 性 能 优势 。 本 书 将 从 PCIe 总 线 拓 扑 结构 、 分 层 结 
构 、TLP 类 型 与 路 由 、 配 置 和 地 址 空间 等 方面 进行 介绍 。 


:电源 管理 ， 本 书 详 述 了 SSD 前 端 总 线 (包括 SATA 和 PCIe) 的 各 种 
节能 模式 、NVMe 协 议 的 电源 管理 方案 及 在 SSD 里 和 常用 的 整体 电源 管 


理 架 构 Power Domain ° 


ECC: 本 书 介 绍 了 人 ECC 的 基本 概念 ， 重 点 介绍 了 LDPC 的 解码 和 
编码 原理 ， 以 及 在 NAND 上 的 应 用 。 


SSD 测 试 的 内 容 包括 : 本 书 详 述 了 管用 的 测试 软件 、 测 试 流程 、 
仪器 设备 、 业 界 认证 及 专业 的 测试 标准 等 。 


BIVRADSCE 


由 于 作者 的 水 平 有 限 ， 再 加 上 时 间 仓 促 ， 书 中 难免 会 出 现 一 些 错 
误 或 者 不 准确 的 地 方 ， 有 恳请 读者 批评 指正 。 您 可 通过 我 们 的 网 站 
(http://www.ssdfans.com ) 、 微 信 公 众 号 (或 微 博 ) SSDFans、 阿 呆 
的 微 信号 (nanoarchplus) 或 阿 采 的 邮箱 (adam@ssdfas.com ) 随时 与 
我 们 进行 交流 。 


致谢 
昔 此 机 会 特别 感谢 一 直 以 来 文 持 SSDFans 的 各 位 朋友 (排名 不 分 
先后 ) 一 一 冬瓜 哥 、 唐 术 、 路 向 峰 、 廖 东 、 兵 哥 、 凶 总 、 古 猫 先生 、 


FR ROH ` UE (Brown) 等 。 

RWDLAN m) l IEE, EAF 
多 的 时 间 中 他 们 始终 文 持 我 们 这 几 个 门外汉 ， 他 们 的 发 励 和 帮助 引 导 
我 们 顺利 完成 全 部 书稿 。 


齐 以 此 书 献 给 亲爱 的 家 人 ， 以 及 众多 文 持 SSDFans 的 朋友 们 ! 


第 1 章 ”SSD 综 壕 


SSD (Solid State Drive) ， 即 固态 和 硬盘， 是 一 种 以 半导体 闪存 
(NAND Flash) 作为 介质 的 存储 设备 。 和 传统 机 械 便 盘 (Hard Disk 
Drive, HDD) 不 同 ，SSD 以 半导体 存储 数据 ， 用 纯 电 子 电路 实现 ， 没 
有 任何 机 械 设备 ， 这 就 决定 了 它 在 性 能 、 功 耗 、 可 靠 性 等 方面 和 HDD 
有 很 大 不 同 。 其 实 SSD 的 概念 很 早 残 有 ， 但 真正 成 为 主流 存储 应 用 还 
是 最 近 10 年 的 事情 。 在 2008 年 初 ， 那 时 候 只 有 很 少 的 几 家 公司 人 研发 
SSD， 如 今 (2018F) ， 已 有 上 百 家 大 小 的 公司 参与 其 中 。 无 论 是 在 
消费 级 还 是 企业 级 市 场 ，SSD 已 经 动 了 两 家 HDD 巨 无 霸 公 司 西数 


在 SSD 大 行 其 道 的 今天 ， 从 事 存 储 行业 的 人 如 果 不 知道 SSD， 狐 
2300 5660 
ag? o 


1.4 引子 
先 从 开机 速度 说 起 。 


过 去 ， 电 脑 局 动 一 般 需 要 几 十 秒 甚 至 一 分 钟 以 上 。 开 机 ， 出 去 倒 
条 ， 回 来 ， 电 脑 还 在 打转 转 。 如 今 ， 使 用 了 SSD 后 ， 开 机 只 要 儿 秘 钟 。 
开机 ， 正 起 里 准备 去 倒 茶 ， 开 机 助手 束 已 经 提示 你 :本 次 开机 8 秒 钟 ， 
nr ME 。 算 了 ， 茶 还 是 不 倒 了 。SSD 开 机 时 间 统 计 如 图 1- 
1PT 不 。 


开机 时 间 


oo 
[o 
J 


0 alc - 
单位 : 秒 SSD ”SSD+ 机 械 硬 盘 机 械 硬 盘 
图 1-1 SSD 开 机 时 间 统 计 


速度 快 ， 是 用 户 在 使 用 SSD 过 程 中 最 为 直观 的 感受 。 那 是 什么 成 就 
了 SSD 的 神速 呢 ? 除了 速度 快 ， 相 比 HDD，SSD 还 有 什么 优点 呢 ? 这 就 
得 从 SSD 的 原理 说 起 了 。 


SSD 是 一 种 以 半导体 为 主要 存储 介质 、 外 形 和 数据 传输 接口 与 传统 
的 HDD 相 同 的 存储 产品 。 目 前 主流 SSD 使 用 一 种 叫 闪存 的 存储 介质 ， 
未 来 随 着 存储 半导体 芯片 技术 的 发 展 ， 它 也 可 以 使 用 更 快 、 更 可 靠 、 
更 省 电 的 新 介质 ， 例 如 3D XPoint、MRAM 等 。 由 于 当前 业界 主要 使 用 
的 还 是 闪存 ， 所 以 本 书 讨论 还 是 以 闪存 为 主 。 


外 观 上 ， 加 上 铝 盒 的 2.5 寸 的 SSD， 和 2.5 寸 HDD 外 观 基 本 相同 。 除 
了 有 传统 HDD 的 2.5 寸 和 3.5 寸 的 外 观 外 ，SSD 还 可 以 有 更 小 的 封装 和 尺 
寸 ， 图 1-2 所 示 为 M.2 接 口 的 SSD。 (关于 SSD 的 接口 形态 ， 后 续 有 详细 


i 
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图 1-2 SSD 外 观 ( 左 : 2.55 f; Æ: M.2SSD) 


SSD 是 用 固态 电子 存储 芯片 阵列 制 成 的 和 硬盘， 主要 部 件 为 控制 器 和 
存储 芯片 ， 内 部 构造 十 分 简单 。 详 细 来 看 ，SSD 硬 件 包括 几 大 组 成 部 
H: 主 控 、 闪 存 、 缓 存 芯 片 DRAM (可 选 ， 有些 SSD 上 可 能 只 有 
SRAM， 并 没有 配置 DRAM) 、PCB (电源 芯片 、 电 阻 、 电 容 等 ) 、 接 
口 (SATA、SAS、PCIe 等 ) ， 其 主体 就 是 一 块 PCB， 如 图 1-3 所 示 。 软 
件 角 度 ，SSD 内 部 运行 固件 (Firmware, FW) 负责 调度 数据 从 接口 端 
到 介质 端的 读 写 ， 还 包括 嵌入 核心 的 闪存 介质 寿命 和 可 靠 性 管理 调度 
算法 ， 以 及 其 他 一 些 SSD 内 部 算法 。SSD 控 制 器 、 闪 存 和 固件 是 SSD 的 
三 大 技术 核心 ， 后 面 章 节 会 依次 深度 介绍 。 
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前 面 讲 了 当前 SSD 存 储 介质 主要 是 内 存 ， 故 首先 讲 一 下 什么 是 存储 


介质 。 


存储 介质 按 物理 材料 的 不 同 可 分 为 三 大 类 : 光学 存储 介质 、 半 导 
体 存 储 介 质 和 磁性 存储 介质 。 光 学 存储 介质 ， 就 是 大 家 之 前 都 使 用 过 
的 DVD、CD 等 光盘 介质 ， 靠 光驱 等 主机 读 取 或 写 入 。 在 SSD 出 现 之 
前 ， 个 人 和 企业 的 数据 存储 还 是 HDD 的 天 下 ，HDD 是 以 磁性 存储 介质 
来 存储 数据 的 ， SSD 出 现 以 后 ， 采 取 的 是 半导体 心 片 作为 存储 介质 。 现 
在 及 未 来 技术 变 音 最 快 和 主要 方向 还 是 半导体 存储 ， 从 图 1-4 可 以 看 
出 ， 半 导体 存储 介质 五 花 八 门 ， 目 前 可 以 看 得 出 的 主要 方向 还 是 闪 
存 、3D XPoint、 MRAM、RRAM 等 。 


光学 存储 
( DVD. CD ) .CD 
介质 


EEPROM 


PROM 
非 易 失 性 EPROM 


NAND 


半导体 SRAM 3DNAND 
Tir a mR 
存储 介质 存储 介质 易 失 性 


3D XPoint 
新 型 介质 MRAM: 磁 阻 
RRAM: 阻 变 
Wai. dX FRAM: 铁 电 
f. HDD 
PCM: 相 变 


图 1-4 ”存储 介质 分 类 


当前 内 存 生 产 供应 商 主 要 有 Micron (美光 ) ^ Samsung (ZÆ) ` 
SK Hynix 〈 现 代 海 力士 ) 、Toshiba (东芝 ) 、WD&Sandisk (西数 和 闪 
迪 ) ,这儿 家 基本 上 蕉 断 了 闪存 市 场 ， 当 然 未 来 会 有 新 的 加 入 者 ， 给 
用 户 以 更 多 的 选择 。 


1.2 SSD vs HDD 


f&5LH)HDDze" ^ HG Se RA TE INURE, SSD T "IAE 
介质 + 主 欣 ” 的 半导体 存储 心 片 结构 ， 两 者 有 完全 不 同 的 数据 存储 介质 
和 读 写 方式 。 对 比如 表 1-1 所 示 。 


再 看 一 下 SSD 和 HDD 物 理 结构 的 不 同 ， 如 图 1-5 所 示 。 


表 1-1 HDD vs SSD 结 构 对 比 


数据 存储 介质 读 取 写 入 
JL X VAEN, 磁头 + 马达 ( 寻 址 ) 
SSD 控制 需 


毫 无 疑问 ，SSD 在 速度 上 可 以 秒杀 HDD， 无 论 在 用 户 感 观 体验 
上 ， 还 是 测试 数据 上 。 

表 1-2 所 示 是 某 两 款 SSD 和 HDD 的 对 比 ， 由 表 可 以 看 到 的 是 ， 读 写 
SM 随机 读 写 性 能 (速度 和 时 延 ) 差异 最 


DRAM “控制 器 连接 需 


` > 
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Yeu 
图 1-5 SSD vs HDD 结 构 
2b 
表 1-2 HDD 与 SSD 性 能 对 比 

SATA SSD ( 500GB) SATA HDD ( 500GB 7 200rpm) 区 别 
连续 读 / 写 (MB/s) | 540330 | i160 | x3/x56 
随机 读 / 写 (IOPS) | — 980007000 | —— 45040 | x217175 
数据 访问 时 间 (ms) x 100 ~ 120 


性 能 测试 工具 包括 连续 读 写 吞吐 量 (Throughput) 工具 和 随机 读 写 
IOPS 工 具 两 种 ， 包 括 但 不 限于 IoMeter、FIO 等 测试 工具 。 也 有 用 户 体 
验 的 性 能 测试 工具 一 一 PCMark Vantage， 它 以 应 用 运行 和 加 载 时 间作 为 
考察 对 象 。 性 能 测试 项 一 般 都 是 影响 用 户 体验 的 项 。 影 响 用 户 体验 的 
项 涉及 系统 启动 时 间 、 文 件 加 载 、 文 件 编辑 等 。 从 图 1-6 所 示 的 对 比 可 
A EA REIL T — AEREE 
兽 ， 被 完 爆 。 


PCMark Vantage 


加 载 应 用 
添加 音乐 

Windows 媒体 中 心 2950 PRO 256 GB 
视频 编辑 SATA SSD A 240 GB 
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Windows 启动 
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游戏 
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图 1-6 SSD vs HDD 性 能 得 分 
2. 功 耗 低 


工作 功 耗 HDD 为 6~8W，SATA SSD 为 5W， 待 机 功 耗 SSD 可 降低 
S|z&h;, (mW) 级别。 


关于 功 耗 ， 业 界定 义 有 几 类 : 峰值 功 耗 (Peak Power) 、 读 写 功 耗 
(Active Power) 、 空 闲 功 耗 (Idle Power) 、 省 电 功 耗 (启动 SSD 内 部 
休眠 ， 尽 可 能 多 地 关 抒 不 工作 的 人 硬件 模块 ， 专 业 上 定义 为 Standby/Sleep 
Power 和 DevSleep Power， 本 书后 面 有 专门 章 忆 介绍 ) 。 特 别 是 
DevSleep Power， 功 耗 可 降 到 10mW 以 下 ， 功 耗 极 低 ， 可 应 用 于 能 耗 要 
求 苛 刻 的 应 用 场景 ， 如 消费 级 笔记 本 休眠 状态 ， 此 种 场景 下 SSD 省 电 是 
非常 重要 的 。HDD 与 SSD 的 功 耗 对 比如 表 1-3 所 示 。 


表 1-3 HDD 与 SSD 功 耗 对 比 
深度 睡眠 功 耗 (mW) 


从 SSD 功 耗 分 解 来 看 ， 读 写 功 耗 主要 消耗 在 闪存 上。 数据 读 取 和 写 
入 并 发 在 后 端的 闪存， 闪存 的 单位 读 写 功 耗 是 决定 性 的 ， 如 16KB 闪 存 
页 (Page) 的 读 写 切 耗 决定 了 主机 端 满 负荷 下 SSD 的 平均 读 写 功 耗 。 


其 次 影响 读 写 功 耗 的 是 主 控 功 耗 ， 其 约 占 功 耗 的 20%， 而 ASIC 主 
控 CPU 的 频率 和 个 数 、 后 端 通道 的 个 数 、 数 据 ECC 的 编码 融 / 解 码 右 的 
个 数 和 设计 等 因素 影响 了 主 控 整 体 的 功 耗 。 


科学 地 比较 功 耗 的 方法 应 该 是 Power/IOPS， 也 就 是 比较 单位 IOPS 
性 能 上 的 功 耗 输出 ， 该 值 越 低 越 好 。 由 于 SSD 极 高 的 性 能 ， 相 对 于 
HDD 而 言 ， 相 当 于 单位 功 耗 产 生出 了 百倍 的 性 能 ， 所 以 SSD 被 称 为 高 
性 能 、 低 功 耗 的 节能 产品 ， 符 合 数据 中 心 (Data Center) 的 使 用 定位 。 


3. 抗 震 防 摔 

SSD 内 部 不 存在 任何 机 械 部 件 ， 相 比 HDD 更 加 抗震 。 

HDD 走 机 械 却 结构 ， 磁 头 和 磁 片 之 间 发 生 跌 落 时 接触 磁 撞 会 产生 
物理 损坏 ， 无 法 复原 。SSD 是 电子 和 PCB 结 构 ，PCB 加 半导体 必 斤 ， 跌 
沙 时 不 存在 机 械 损 伤 问题 ， 因 此 更 加 抗震 和 可 靠 。 

另外 SSD 对 环境 的 和 要求 没有 HDD 那 么 可 刻 ， 更 适合 作为 便携 式 笔 


记 本 、 平 板 电脑 的 存储 设备 。 从 可 靠 性 角度 来 看 ， 物 理 上 的 损伤 以 及 
带 来 数据 损坏 的 概率 ，SSD 比 HDD 更 低 。 


4. 无 噪声 
客观 上 ， 由 于 结构 上 没有 马达 的 高 速 运转 ，SSD 是 静音 的 。 
5. 身 形 小 巧 百 变 


HDD 一 般 只 有 3.5 寸 和 2.5 寸 两 种 形式 ，SSD 除 了 这 两 种 ， 还 有 更 小 
的 可 以 贴 放 在 主板 上 的 M.2 形 式 ， 其 至 可 以 小 到 芯片 级 ， 例 如 BGA SSD 
的 大 小 只 有 16mmx30mm， 甚 至 可 做 得 更 小 。 


江波 龙 2017 年 8 月 发 布 了 目前 世界 上 最 小 尺寸 的 BGA SSD 
(11.5mmx13mm) 一 P900 系 列 。 


最 后 再 综合 对 比 一 下 SSD 和 HDD 的 具体 差异 ， 如 表 1-4 所 示 。 
表 1-4 _ HDD 与 SSD 对 比 和 矩阵 


比较 项 比较 项 HDD 


看 来 ， 目 前 HDD 和 SSD 相 比 只 有 价格 优势 。 但 随 着 大 容量 闪存 的 
出 现 ，SSD 的 价格 也 会 越 来 越 低 ， 相 信 不 久 的 将 来 ，HDD 的 价格 优势 
也 会 不 复 存在 。 


13 国 态 存储 及 SSD 技 术 发 展 史 


SSD 一 路 走 来 ， 从 技术 层面 的 发 展演 进 和 各 个 初创 公司 的 请 现 ， 到 
少数 壮大 ， 再 到 今天 汇聚 成 一 股 强大 的 力量 ， 推 动 SSD 的 普及 应 用 ， 可 
谓 不 易 。 回 顾 SSD 的 历史 ， 会 让 我 们 更 深刻 地 理解 这 场 撤 术 早 命 对 人 类 
真 可 谓 *“ 山 重水 复 疑 无 路 ， 柳 暗 花 明 


早 在 1976 年 就 出 现 了 第 一 款 使 用 RAM 的 SSD，1983 年 Psion 公 司 的 
计算 器 使 用 了 闪存 存储 卡 ，1991 年 SanDisk 推 出 了 20MB 的 内 存 SSD。 经 
过 成 千 上 万 科学 家 、 工 程 师 以 及 各 行 各 业 的 人 40 来 年 的 努力 ，SSD 终 于 
改变 了 我 们 的 生活 。 下 面 我 们 来 回顾 一 下 SSD 的 逆 袭 之 路 。 


StorageSearch 是 一 家 专门 讲述 各 大 固态 存储 公司 产品 的 网 站 ， 本 市 
中 SSD 发 展 史 大 部 分 内 容 来 自 于 该 网 站 的 一 篇 文章 : 


http://www.storagesearch.com/chartingtheriseofssds.html ° 


1. 昂 贵 的 RAM SSD 时 代 


我 们 都 知道 心 片 巨头 Intel 现 在 最 赚钱 的 产品 是 CPU， 但 是 在 20 世 纪 
70 年 代 ，Intel 最 赚钱 的 产品 是 RAM， 就 是 我 们 电脑 内 存 条 里 面 的 心 
片 。 当 RAM 刚 被 发 明 的 时 候 ， 束 有 一 些 脑 子 灵活 的 人 开始 用 很 多 RAM 
组 外 成 容量 很 大 的 硬盘 来 卖 。 


据 史 料 记载 ，1976 年 ，Dataram 公 司 开始 出 售 叫 作 Bulk Core 的 
SSD， 容 量 是 2MB (在 当时 很 大 了 ) ， 使 用 了 8 块 大 电路 板 ， 每 个 板子 
有 18 个 256KB 的 RAM (细心 的 读者 肯定 在 想 2MB 是 怎么 算出 来 的 ， 其 
实 很 简单 ， 好 好 想 想 吧 ) 。 这 款 SSD 是 个 大 块头 ， 具 体外 观 如 图 1-7 所 
不 o 


图 1-7 Bulk Core SSD 
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据 ， 速 度 很 快 ， 缺 点 也 很 明显 ， 掉 电 数 据 束 没 了 ， 价 格 还 巨 贵 。 其 注 
定 生 土 桶 的 玩具 ， 不 能 进入 导 利 百姓 家 。 


在 以 后 的 20 多 年 时 间 里 ，TMS (Texas Memory Systems) ` 、 
DEC 等 玩家 不 断 推出 各 种 RAM SSD， 在 这 个 小 众 的 市 场 里 自 娱 4 乐 。 
不 过 特别 强调 一 下 ， 最 主要 的 玩家 是 TMS 。 


2. 机 械 硬 盘 (HDD) 称霸 世界 


当 SSD 还 在 富豪 的 俱乐部 里 被 把 玩 的 时 候 ，HDD 却 异军突起 ， 迅 
速 普 及 全 世界 。HDD 本 来 也 很 昂 贯 ， 而 且 容 量 小 ， 但 是 1988 年 费 尔 和 
格林 贝 格 尔 发 现 了 巨 磁 阻 效应 ， 这 个 革命 性 的 技术 使 得 HDD 容 量变 得 
很 大 ， 在 各 大 企业 的 推广 下 ， iDD 进 入 千家 万 户 。 他 们 俩 也 因此 获得 
了 2007 年 诺 贝 尔 物理 学 奖 。 


ea D 市 场 为 320 亿 美金 。 但 是 ，HDD 
经 过 了 最 里 盛 的 时 代 。 图 1-8 所 示 是 根据 希捷、 西部 数据 和 东芝 的 出 

IF HDD Ail, TUAE, M20104E7FT35, HDDHif$ 
一 直 在 下 滑 (2014 年 有 小 的 反弹 ) 。 
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图 1-8 全球 机 械 人 硬盘 销量 变化 
3. 内 存 一 一 源 于 华人 科学 家 的 发 明 


1967 年 ， 贝 尔 实验 室 的 韩 裔 科学 家 姜 大 元 和 华裔 科学 家 施 伍 一 起 
发 明了 浮 栅 唱 体 管 (Floating Gate Transistor) ， 这 是 现在 SSD 基 础 一 一 
内 存 的 技术 来 源 。 学 过 MOS 管 的 同学 肯定 对 图 1-9 很 熟悉 ， 相 比 
MOSFET 就 多 了 个 Floating Gate, FÆ FE, Pr LAA o E o r E 
MAREE, METZ, BERTE, m EA E T E 
MEA H ° 


施 敏 :1936 年 生 于 南 泵 ， 毕 业 于 台湾 大 学 ， 在 斯 坦 福 大 学 获得 博 
士 学 位 ， 是 着 名 的 物理 学 家 ， 现 于 台湾 的 交通 大 学 任教 。 期 得 5SD 的 普 
及 能 让 他 获得 诺 贝尔 次 。 
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图 1-9 W EAT 
4. 闪 存 SSD 异 军 突 起 


20 世 纪 90 年 代 末 ， 终 于 有 一 些 厂商 开始 尝试 使 用 内 存 制 造 SSD， 进 
行 艰难 的 市 场 探 索 。1997 年 ，Altec Computer Systeme 推 出 了 一 款 并 行 
SCSI 闪 存 SSD， 接 着 1999 年 BiTMICRO 推 出 了 18GB 的 闪存 SSD， 从 
此 ， 闪 存 SSD 了 逐渐 取代 RAM SSD， 成 为 SSD 市 场 的 主流 。 闪 存 的 特点 
是 掉 电 后 数据 还 在 ， 真 的 像 我 们 所 知 的 硬盘 了 o 


新 技术 的 应 用 是 如 此 之 快 ， 引 起 了 科技 巨头 的 关注 。2002 年 比尔 : 
凑 次 束 预 见 到 了 SSD 的 普及 ， 他 傈 守 地 说 ， 有 一 种 叫 SSD 的 东西 ， 未 来 
三 四 年 内 将 会 成 为 某 些 平 板 电脑 的 硬盘 。 可 惜 的 是 微软 那 时 候 没 有 成 
功 推广 平板 电脑 。 


从 2003 年 开始 ，SSD 的 时 代 终 于 到 来 ，SSD 开 始 成 为 存储 行业 的 一 
个 热 词 ， 固 态 便 盘 的 概念 开始 为 许多 人 所 知晓 。 


2005 年 5 月 ， 三 星 电 子 宣 布 进入 SSD 市 场 ， 这 是 第 一 家 进入 这 个 市 
场 的 科技 巨头 。 


5.2006 年 ，SSD 进 入 笔记 本 


2006 年 ，NextCom 制 造 的 笔记 本 开始 使 用 SSD。 三 星 推 出 了 32GB 
的 SSD， 并 认为 2007 年 SSD 市 场 容量 可 达 13 亿 美金 ，2010 年 将 达到 45 亿 


美金 。9 月 ， 三 星 推出 了 PRAM SSD， 这 另 一 种 SSD 技 术 ， 其 采用 了 
PRAM 作 为 载体 ， 三 星 希望 能 取代 NOR 闪 存 。 


同年 11 月 ， 微 软 的 Windows Vista 来 到 了 市 场 上 ， 这 是 第 一 款 支 持 
SSD 特 殊 功能 的 PC 操作 系统 。 


6.2007， 革 命 之 年 


2007 年 ，Mtron 和 Memoright 公 司 开 发 了 2.5 寸 和 3.5 二 的 闪存 SSD， 
读 写 囊 宽 和 随机 IOPS 性 能 终于 达到 了 最 快 的 企业 级 HDD 水 平 ， 同 时 内 
d i QE SSD。 硬 盘 大 战 的 序幕 从 此 拉 


2 月 份 ，Mtron 推 出 的 PATA SSD 写 速度 为 80MB/s， 但 是 仅仅 8 个 月 
后 ，Memoright 的 PATA 和 SATA SSD 成 为 速度 最 快 的 一 -100MB/As 的 读 
写 速度 。 


企业 级 市 场 玩 家 Violin Memory 和 Texas Memory Systems 也 推出 了 大 
型 SSD。TMS 的 RamSan-500 容 量 达 2TB，DDR RAM 作 为 缓存 ， 闪 存 作 
为 存储 。 随 机 读 IOPS 100k， 随 机 写 10k， 顺 序 读 写 带宽 达到 了 惊人 的 
2GB/s! 来 看 看 这 个 大 家 伙 〈 见 图 1-10) ° 


图 1-10 ”大 型 SSD 


内 存 厂 丙 SanDisk、Micron 也 推出 了 一 系列 的 SATA SSD, Toshiba 
也 宣布 要 做 SSD 。 年 底 的 时 候 ， 市 场 上 有 60 家 SSD OEM) fi e 


7.2008 年 ， 速 度 大 战 爆发 
2008 年 ，SSD 广 商 迅 速达 到 了 100 家 ， 就 是 说 一 年 内 新 导出 了 40 家 


新 的 SSD 厂 商 。 这 一 年 使 用 的 内 存 还 是 SLC。SLC 虽 然 容量 小 、 价 格 
高 ， 但 是 挡 不 住 大 家 的 热情 ，IOPS 不 断 被 打破 。 


EMC 再 次 推出 了 使 用 SSD 的 网 络 存储 系统 Symmetrix DMX-4， 上 一 
次 使 用 SSD 是 在 20 年 前 ， 不 过 那 时 候 是 RAM SSD。 三 星 想 要 收购 
SanDisk， 悲 剧 的 是 被 拒绝 了 ， 还 好 Sandisk 的 股东 脑子 清醒 ， 因 为 现在 
Sandisk 已 经 是 一 家 市 值 百 亿美 金 的 巨头 (2015 年 SanDisk 以 190 亿 美元 
价格 被 西数 收购 ) 。Violin Memory 甚 至 宣布 他 们 的 4TB 1010Memory 
Appliance 可 以 达到 4KB 随 机 读 融 宽 200k， 随 机 写 100k IOPS， 文 持 
PCIe ` Fibre Channel 和 以 太 网 接口 。Fusion-IO 的 SSD 开 始 为 HP 的 
BladeSystem 服 务 器 提供 加 速 功 能 。 


著名 的 OCZ 公 司 开始 进入 2.5 寸 SSD 市 场 。Intel 开 始 出 售 X-25E 2.5 
寸 32GB SATA SSD， 读 延迟 75hs，10 个 通道 ， 读 写 带 宽 分 别 是 
250/170MB/s ° AKBBE Uis: 5 18 5535k IOPS 和 3.3k IOPS ° 


8.2009 年 ，SSD 的 容量 赶 上 了 HDD 


PureSilicon 公 司 的 2.5 寸 SSD 做 到 了 1TB 容 量 ， 由 128 片 64Gb 的 MLC 
内 存 组 成 。SSD 终 于 在 同样 的 空间 内 ， 实 现 了 和 HDD 一 样 大 的 容量 。 
这 一 点 很 重要 ， 因 为 之 前 HDD 广 商 认为 HDD 的 优势 是 容量 增 大 很 容 
易 ， 增 加 盘 族 密度 就 可 以 了 ， 成 本 很 低 ， 而 SSD 必 须要 内 部 忆 片 数量 翻 
番 才 能 实现 容量 翻 倍 。 但 是 这 款 MLC SSD 证 明 一 个 存储 单元 (Cell) 
多 存 儿 个 比特 也 可 以 让 容量 翻 儿 番 ， 但 是 性 能 却 远 超 HDD: 读 写 带宽 
分 别 为 240MB/s 和 215MB/s， 读 延迟 小 于 100hs， 随 机 读 写 分 别 为 50k 
IOPS 和 10k IOPS。HDD 厂 商 的 危机 来 临 了 。 


SSD 的 巨大 革新 惊动 了 很 多 技术 大 牛 ，Apple 的 早期 创始 人 Steve 
Wozniak 成 为 Fushion-IO 的 首席 科学 家 。 


大 名 鼎鼎 的 SandForce 推 出 了 第 一 代 SSD 控 制 姻 SF-1000， 是 当时 最 
快 的 2.5 寸 SATA SSDo Hr, SHB250MB/si 53H $5, 30k IOPS ° Intel» 


内 部 员工 配备 了 1 万 台 SSD 笔 记 本 。Micron 的 C300SSD 实 现 读 带 宽 
355MB/s 和 写 带 视 215MB/s ° 


在 SSD 的 热潮 中 ，HDD 的 巨头 希捷 也 坐 不 住 了 ， 试 验 性 地 开始 销 
售 SSD 产 品 。 


9.2010 年 ，SSD 市 场 开始 繁荣 
2010 年 ，SSD 市 场 达到 了 10 亿 美金 。 


Fusion-IO 宣 布 年 度 营 收 增长 300%。SandForce 开 始 使 用 广告 
词 “SandForce Driven SSDs” ° 这 一 年 企业 级 市 场 还 是 SLC， 但 是 消费 级 
产品 开始 广泛 使 用 MLC 了 。 


10.2011~-2012 年 ， 上 市 、 收 购 ， 和 群雄 并 起 


2011 年 6 月 ，Fusion-IJO 上 市 ， 市 值 18 亿 美金 ， 后 来 一 度 达到 40 多 亿 
美金 ， 这 家 当年 的 明星 公司 没 想 到 后 来 11 亿 美金 便宜 卖 掉 了 ,， 令 人 里 
咕 不 已 ， 可 见 大 家 看 好 的 SSD 市 场 竞争 异常 激烈 。 


SandForce 说 他 们 的 SSD 控 制 融 内 置 数据 实时 压缩 功能 ， 这 使 得 

SSD 的 使 用 寿命 进一步 延长 ， 读 写 带 宽 也 得 到 提高 。 因 为 经 过 压缩 后 ， 
实际 写 入 SSD 内 部 的 数据 大 幅度 减少 ， 这 个 实时 压缩 技术 听 起 来 简单 ， 
可 是 实现 起 来 异常 复 洒 ， 因 为 压缩 之 后 每 一 个 用 户 数 据 页 的 大 小 都 不 
一 样 ， 映 射 表 等 的 设计 需要 非常 精妙 。 所 以 ， 至 今 仍然 没有 几 家 公司 
实现 SSD 内 部 压缩 。 不 得 不 说 ， 已 经 被 轮番 收购 ， 最 后 落 入 希捷 手中 的 
SandForce 是 SSD 控 制 右 市 场 最 成 功 的 公司 : 做 出 了 最 成 功 的 产品 ， 拉 
术 非 常 精妙， 市场 又 很 成 功 。 


新 的 厂商 不 断 出 现 ， 巨 头 的 土地 兼并 也 开始 了 。 几 个 车 名 的 控制 
器 芯片 厂商 消失 : 2011 年 年 初 ，OCZ 以 3200 万 美金 收购 Indilinx; 年 
底 ， 老 牌 存储 心 片 玩家 LSI 以 3.7 亿 美金 收购 了 SandForce; 2012 年 6 月 
Hynix 收 购 了 LAMD (Link A Media Devices) ° 
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图 1-11 SandForce 宣 传 SSD 击 败 HDD 的 海报 


企业 级 市 场 也 开始 使 用 MLC。 闪 存 阵列 厂商 Skyera (其 Logo 如 图 
1-12 所 示 ) 推出 了 44TB 的 SSD， 售 价 13.1 万 美金 ! 


SKYERA 


SOLID STATE STORAGE s /STEMS 
图 1-12 Skyera Logo 

这 一 年 的 另 一 个 重大 事件 是 IBM 收 购 了 老牌 RAM SSD 厂 商 TMS ° 
11.2013 年 ，PCIe SSD 进 入 消费 者 市 场 

台式 机 和 笔记 本 觉得 SATA 已 经 不 够 用 了 ，SAIA 是 为 HDD 议 计 的 
接口 ， 最 大 速度 是 6Gbps， 只 能 达到 最 高 600MB/s 的 带宽 (扣除 协议 开 
销 ， 实 际 速度 可 能 只 有 560MB/s 左 右 ) ， 同 时 命令 队列 不 够 深 ， 不 适合 
SSD 使 用 。SSD 开 始 在 协议 上 引发 存储 技术 的 变革 。 


同时 出 现 了 可 以 插 在 内 存 DIMM 插 槽 里 的 SSD， 容 量 大 ， 速 度 快 ， 
掉 电 数据 还 在 ， 就 看 用 户 怎 么 使 用 内 存 了 。 软 件 可 得 跟 上 啊 ! 


内 存 阵 列 厂 商 Violin Memory 纳 斯 达 克 上 市 ， 让 投资 人 慕 催 的 是 当 
天 股价 从 9 美金 跌 到 7 美金 ， 两 周 后 CEO Donald Basile 被 赶 跑 了 。 看 来 
全 闪存 阵列 的 前 景 并 不 被 看 好 。 

年 底 ，LSI 被 Avago 以 66 亿 美金 收购 。 
12.2014 年 ，SSD 软 件 平台 重 构 企业 级 存储 


SSD 大 放 异 彩 需 要 整个 生态 链 的 支持 ， 因 为 以 前 的 软件 和 协议 都 是 
为 慢 速 HDD 设 计 的 。 现 在 它们 需要 适应 快速 的 硬盘 。 


VMware 的 VSAN 能 够 支持 3 一 8 个 服务 器 节点 。SanDisk 的 企业 级 存 
储 软 件 ZetaScale 


支持 占用 大 量 内 存 的 应 用 ， 有 了 SSD 后 ，DRAM 作 为 缓存 ，SSD 来 
存储 程序 数据 ， 速 度 依然 很 快 。 这 对 有 着 大 量 数据 的 数据 库 来 说 非常 
有 用 ， 不 用 开发 硬盘 的 接口 了 ， 数 据 都 可 以 放 在 内 存 里 面 。 

SanDisk 11 亿 美金 收购 Fusion-IO， 希 捷 4.5 亿 美金 收购 Avago 

(LSI) 的 企业 级 SSD 部 门 ASD 和 SSD 控 制 器 芯片 部 门 FCD 
(SandForce) 


年 底 ， 原 SandForce 创 始 团队 创建 的 创业 公司 Skyera 被 WD 收 购 。 


13.2015 年 ，3D XPoint 


Tezarron 说 会 在 2016 年 采用 Rambus 的 ReRAM 来 做 SSD。 
Northwest Logic 开 发 的 FPGA 控 制 妖 可 以 文 持 Everspin 的 MRAM ° 


Toshiba 发 布 48 层 3D 内 存 样 总 ， 容 量 16GB ° 


Diablo 和 Netlist 打 官司 ，Diablo 赢 了 ， 官 司 的 内 容 是 ultrafast Flash 
DIMM 。 他 们 发 布 了 Memory1， 号 称 能 在 需要 大 内 存 的 环境 下 替换 内 
存 o 

不 过 Netlist 宣 布 和 Samsung 合 作 开发 Flash As RAM 的 DIMM ° 


SSD 控 制 器 厂商 SMI 5700 万 美金 收购 了 SSD 三 商 Shannon Systems 
一 一 宝 存 科技 。 


7 月 ，Intel/ 和 Micron 宣 布 开发 出 了 新 型 存储 器 一 一 3D XPoint 。 
Pure Storage 完 成 IPO， 上 市 。 
Crossbar D 轮 融资 3500 万 美金 ， 开 发 RRAM SSD ° 
WD 190 亿 美金 收购 Sandisk。 
14.2016 年 ，NVDIMM 开 始 供 货 ， 关 键 是 怎么 标准 化 


Google 经 过 测试 认为 不 值得 伦 那 么 多 钱 去 买 SLC， 其 实 MLC 性 价 
比 更 高 。 


NVMdurance 再 次 融资 ， 号 称 能 延长 内 存 寿 命 。 
Cadence 和 Mellanox 展 示 了 PCIe 4.0 技 术 ， 带 宽 达 到 16Gbps ° 


Pure Storage 表 示 2016 年 第 一 季度 全 内 存 阵列 收入 超过 了 机 械 硬盘 
阵列 头号 三 商 。 


Diablo 的 128GB DDR4Memory1 开 始 供 货 。 

希捷 展示 60TB 的 3.5 寸 SAS SSD ° 

Nimbus 在 FMS 上 展示 4PB 4U HA 全 闪存 阵列 。 

Everspin (MRAM) 启动 上 市 IPO 进 程 。 

Rambus 宣 布 了 基于 FPGA 的 数据 加 速 卡 项 目 。 
SiliconMotion 发 布 了 世界 上 第 一 颗 SD 5.AbNWERJSD E Ti las ° 
Violin 破 产 保护 。 


1.4 SSD 基 本 工作 原理 


从 主机 PC 问 开 始 ， 用 户 从 操作 系统 应 用 层面 对 SSD 发 出 请 求 ， 文 
件 系 统 将 读 写 请 求 经 驱动 转化 为 相应 的 符合 协议 的 读 写 和 其 他 命令 ， 
SSD 收 到 命令 执行 相应 操作 ， 然 后 输出 结果 ， 每 个 命令 的 输入 和 输出 经 
协议 标准 组 织 标准 化 ， 这 是 标准 的 东西 ， 和 HDD 无 异 ， 只 不 过 HDD 埠 
换 成 SSD 硬 件 存储 数据 ， 访 问 的 对 象 变 成 SSD。 

SSD 的 输入 是 命令 (Command) ， 输 出 是 数据 (Data) 和 命令 状 
A (Command Status) 。SSD 前 端 (Front End) 接收 用 户 命令 请 求 ， 经 
过 内 部 计算 和 处 理 逻 辑 ， 输 出 用 户 所 需要 的 数据 或 状态 。 


从 图 1-13 所 示 可 以 看 出 ，SSD 主 要 有 三 大 功能 模块 组 成 : 


系统 


图 1-13 SSD 系统 调用 
前端 接口 和 相关 的 协议 模块 ; 


中间 的 FTL 层 (Flash Translation Layer) 模块 ; 


后 并 和 内 存 通信 模块 。 


NAND 


SSD 前 端 负责 和 主机 直接 通信 ， 接 收 主机 发 来 的 命令 和 相关 数据 ， 
命令 经 SSD 处 理 后 ， 最 终 交 由 前 端 返 回 命令 状态 或 数据 给 主机 。SSD 通 
过 诸如 SATA、SAS 和 PCIe 等 接口 与 主机 相连 ， 实 现 对 应 的 ATA、SCSI 
和 NVMe 等 协议 ， 如 表 1-5 所 示 。 


表 1-5 SATA/SAS/PCIe 接 口 协议 


un FEAR 
SATA ATA/SATA 命令 集 AHCI (Advanced Host Controller Interface ) ATA-IO 
PCIe JOE PCIExpress/NVM Express 


我 们 看 看 SSD 是 怎么 进行 读 写 的 ， 以 写 为 例 。 


主机 通过 接口 发 送 写 命令 给 SSD，SSD 接 收 到 该 命令 后 执行 ， 并 接 
收 主机 要 写 入 的 数据 。 数 据 一 般 会 先 缓存 在 SSD 内 部 的 RAM 中 ，FTL 
会 为 每 个 逻辑 数据 块 分 配 一 个 闪存 地 址 ， 当 数据 凑 到 一 定数 量 后 ，FTL 
便 会 发 送 写 内 存 请 求 给 后 端 ， 然 后 后 端 根 据 写 请 求 ， 把 缓存 中 的 数据 
写 到 对 应 的 闪存 空间 。 


由 于 内 存 不 能 覆盖 写 ， 闪 存 块 需 探 除 才能 写 入 。 主 机 发 来 的 某 个 
数据 块 ， 它 不 是 写 在 内 存 固定 位 置 ，SSD 可 以 为 其 分 配 任何 可 能 的 内 存 
空间 写 入 。 因 此 ，SSD 内 部 需要 FTL 这 样 一 个 东西 ， 完 成 逻辑 数据 块 到 
内 存 物 理 空间 的 转换 或 者 映射 。 


举 个 例子 ， 假 设 SSD 容 量 为 128GB ， 逮 辑 数 据 块 大 小 为 4KB， 所 以 
该 SSD 一 共有 128GB/4KB=32M 个 逻辑 数据 块 。 每 个 逻辑 块 都 有 一 个 映 
射 ， 即 每 个 逻辑 块 在 | 内存 空 间 都 有 一 个 存储 位 置 。 闪 存 地 址 大 小 如 果 
用 4 字 节 表示 ， 那 么 存储 32M 个 逻辑 数据 块 在 闪存 中 的 地 址 则 需要 
32Mx4B=128MB 大 小 的 映射 表 。 


正 因为 SSD 内 部 维护 了 一 张 逻辑 地 址 到 物理 地 址 转换 的 映射 表 ， 当 
主机 发 来 读 命令 时 ，SSD 能 根据 需要 读 取 的 逻辑 数据 块 查 找 该 映射 表 ， 
获取 这 些 逻 辑 数 据 在 内 存 空间 所 在 的 位 置 ， 后 端 便 能 从 内 存 上 把 对 应 
数据 读 到 SSD 内 部 缓存 空间 ， 然 后 前 痢 负 责 把 这 些 数 据 返 回 给 主机 。 


由 于 前 端 接口 协议 都 是 标准 化 的 ， 后 端 和 闪存 的 接口 及 操作 也 是 
标准 化 的 (闪存 遵循 ONFI 或 者 Toggle 协 议 ) ， 因 此 ， 一 个 SSD 在 前 端 


协议 及 闪存 确定 下 来 后 ， 差 异化 就 体现 在 FTL 算 法 上 了 。FTL 算 法 决定 
了 性 能 、 可 靠 性 、 切 耗 等 SSD 的 核心 参数 。 


E FTL 除 了 完成 逻辑 数据 到 闪存 空间 的 映射 ， 还 需要 做 很 多 其 
情 。 


前 面 提 到 ， 内 存 不 能 覆盖 写 ， 因 此 随 着 用 户 数据 的 不 断 写 入 ， 内 
存 空间 会 产生 垃圾 (无 效 数据 。FTL 需 要 做 垃圾 回收 (Garbage 
Collection) ， 以 腾 出 可 用 闪存 空间 用 以 写 用 户 数据 。 


以 图 1-14 所 示 为 例 ， 在 Block x 和 Block y 上 有 很 多 垃圾 数据 ， 其 中 
Block x 上 的 A、B、C 为 有 效 数 据 ，Block y 上 的 D、E、F、G 为 有 效 数 
据 。 垃 圾 回收 就 是 把 一 个 或 者 几 个 Block 上 的 有 效 数据 搬出 来 集中 写 到 
某 个 空 有 Block 上 (比如 Block z) 。 当 这 些 Block 上 的 有 效 数据 都 搬 走 
后 ，FTL 便 能 擦 除 这 些 Block， 然 后 又 能 把 这 些 Block 拿 出 来 供 SSD 写 入 
新 的 数据 了 。 


Block x Block x Block x 


K-14 ”垃圾 数据 回收 


还 有 ， 内 存 都 是 有 寿命 的 ， 每 个 内 存 块 不 能 一 直 写 数据 ， 因 此 ， 
为 保证 最 大 的 数据 写 入 量 ，FTL 必 须 尽 量 让 每 个 内 存 块 均衡 写 入 ， 这 就 
是 磨损 平衡 (Wear Leveling) 。 


除 此 之 外 ，FTL 还 需要 实现 坏 块 管理 、 读 干扰 处 理 、 数 据 保 持 处 
理 、 错 误 处 理 等 很 多 其 他 事情 。 理 解 了 FTL，SSD 的 工作 原理 也 融和 掌握 
了 。 关 于 FTIL， 本 书 有 专门 章 世 介绍 ， 读 者 可 自行 跳 到 第 4 章 阅读 。 


1.5 SSD 产 品 核 心 参数 


用 户 在 购买 SSD 之 前 ， 会 关注 它 的 一 些 参数 指标 ， 比 如 能 跑 多 
快 、 用 的 是 什么 闪存 等 。 特 别 是 企业 级 用 户 ， 需 要 全 方位 研究 SSD 的 
核心 指标 ， 解 决 关 注 什么 指标 、 如 何 关注 、 竞 争 产品 对 比 等 问题 ， 最 
终 逐 一 拨 开 产品 内 在 本 质 。 本 节 以 mntel 一 款 企业 级 SATA 接 口 数据 中 心 
〈( 见 图 1-15) ， 带 大 家 一 起 解读 SSD 产 品 的 

交心 参数 。 


Intel® Solid-State Drive DC S3710 Series 


= Capacity: 
— 200GB, 400G8, 800GB, 1.2TB 

- Components: 
— intet? ZOrmmn NAND Flash IMerriocy 
— High Endurance Technology (HET) 

Multi-Level Cell {MLC} 

m Form Factor: 2.5-inch 

= Read and Write IOPS'? 
(Full LBA Range, IOMeter* Queue Depth 32) 
— Random 4KB' Reads: Up to 85,000 IOPS 
— Random 4KB Writes: Up to 45,000 IOPS 
— Random BKB' Reads: Up to 52,000 IOPS 
— Random 8KB Writes: Up to 21,000 IOPS 


= Bandwidth Performance! 
— Sustained Sequential Read: Up to 550 MB/s* 
— Sustained Sequential Write: Up to 520 MB/s 
= Endurance: 10 drive writes per day? for 5 years 


— 200GB. 3.60B 400GB 83PB 

- BOOGBE. 16.9P8 1.2TB: 243pB 
= Lateng (average sequential) 

— Read: 55 ys (TYP) 


— Write: 66 us [TYP) 
= Quality of Service®? 
— Read/Write: 500 us / 5 ms (99.996) 
= Performance Consistency”? 
— Read/Write: Up to 90%/90% (99.926) 


m AES 256-bit Encryption 
= Altitude? 
— Operating: -1000 to 10,000 ft 
— Operating" 10,000 to 15,000 ft 
— Non-operating- -1,000 to 40,000 ft 


- Product Ecological Compliance 
— RoHS* 


= Compliance 

— SATA Revision 3.0; compatible with SATA 6Gb/s, 3Gb/s 
and 1.5Gbj/s interface rates 

— ATAJATAPI Command Set - 2 (ACS-2 Rev 7% 
includes SCT (Smart Command Transport) 
and device statistics log support 

— Enhanced SMART ATA feature set 

— Native Command Queuing (NCQ) command set 

— Data set management Trim command 


图 1-15 


Product Specification 
Power Management 
— SV or 5V*12V SATA Supply Rail 
— SATA Interface Power Management 
一 OS-awars hot plug/removal 
— Enhanced power-loss data protectionfeature 


Power’? 


— Active: Up to 6.9 W (TYP)" 
— idle 600 mw 


Weight: 
— 200GB: 82 grams * 2 grams 
— 400GB: 82 grams + 2 grams 
— BOOGB: 88 grams * 2 grams 
— 1.2TB: 94 grams + 2 grams 
Temperature 
— Operating. 0° C to 70* C 
— Non-Operating"- -55* C to 95° C 
— Temperature monitoring and logging 
— Thermal throttling 
Shock (operating and non-operating): 
1,000 G/0.5 ms 
Vibration 
— Operating. 2.17 Ges (5-700 Hz) 
— Non-Operating: 3.13 Gws (5-800 Hz) 
Reliability 
— Uncorrectable Bit Error Rate (UBER. 
1 sector per 10"! bits read 
— Mean Time Between Failures (MTBF): 2 million hours 
— End-to-End data protection 
Certifications and Declarations 
— UL*, CE*, C-Tick*, BSMI*, KCC*, Microsoft* WHCK, VCCI^, 
SATA-IO* 
Compatibility 
— Windows 7* and Windows 8*, and Windows 8.1* 
— Windows Server 2012* R2 
— Windows Server 2012* 
— Windows Server 2008* Enterprise 32/64bit SP2 
— Windows Server 2008* R2 SP1 
— Windows Server 2003* Enterprise R2 54bit SP2 
一 VMWare* 5.1, 5.5 
— Red Hat* Enterprise Linux* 5.5, 5.6, 6, 63, 7.0 
— SUSE* Linux* Enterprise Server 10, 11SP1 
— CentOS* 64bit 5.7, 6.3 
— intei? SSD Toolbox with Intel? SSD Optimizer 


Intel DC S3700 固 态 硬盘 规格 书 堆 图 
从 图 1-15 所 示 分 类 来 看 ， 这 份 文档 给 用 户 展示 了 SSD 几 大 核心 参 


.基本 信息 : 包括 容量 配置 (Capacity) 、 介 质 信 息 
(Component) 、 外 观 尺 寸 (Form Factor) 、 重 量 (Weight) 、 环 境 温 


度 (Temperature) 、 震 动 可 靠 性 《Shock 和 Vibration) 、 认 证 


(Certifications) 、 加 密 (Encryption) 等 信息 。 


-性 能 指标 :连续 读 写 带 宽 、 随 机 读 写 IOPS、 时 延 (Latency) 
最 大 时 延 (Quality of Service) 


.数据 可 靠 性 和 寿命 : Reliability、Endurance。 
. 功 耗 : Power Management ^ Active Power 和 Idle Power ° 


.兼容 性 等 : Compliance ^ Compatibility (与 操作 系统 集成 时 参 
考 ) 。 


当然 ， 还 有 其 他 一 些 重 要 信息 在 产品 规范 书 里 是 无 法 体现 出 来 
的 ， 比 如 产品 可 靠 性 (RMA Rate) 。 由 于 固件 或 者 硬件 缺陷 导致 产品 
退 修 率 高 低 是 很 关键 的 ， 在 保质 期 内 产品 返修 率 越 低 越 好 。 尤 其 是 企 
业 级 硬件 ， 数 据 比 SSD 副 本 壬 更 重要 ， 用 户 不 能 容 妨 的 是 由 于 固件 、 
硬件 可 靠 性 问题 或 缺陷 导致 丢 数据 ， 或 者 数据 无 法 通过 技术 手段 恢 
复 。 


产品 的 测试 条 件 信息 、 产 品 的 系统 兼容 性 好 坏 的 信息 等 也 是 无 法 
在 产品 规范 书 里 体现 出 来 的 。 这 些 也 是 考验 购买 SSD 的 用 户 对 SSD 理 
解 的 深度 。 从 测试 条 件 的 苛刻 设计 中 提炼 出 用 户 自己 想 要 的 测试 用 
例 ， 用 测试 结果 来 反映 产品 规范 书 里 无 法 透露 和 显示 的 产品 的 实际 数 
据 信息 。 当 然 ， 能 通过 苛刻 的 测试 ， 并 在 实际 上 线 运 行 中 经 受 住 系 统 
的 考验 ， 日 积 月 票 ， 产 品 的 品牌 就 打出 来 了 。 每 家 SSD OEM 客 户 都 有 
自己 的 标准 和 测试 ， 通 过 实际 测试 和 运行 数据 检验 出 口碑 和 质量 好 或 
差 的 SSD 供 应 商 。 


长 期 来 看 ， 对 于 各 供应 商 的 SSD 质 量 客户 心中 是 
数 的 。 


1.5.4. 基本 信息 谢 析 


1.SSD 容 量 


SSD 容 量 十 指 提 供给 终端 用 户 使 用 的 最 终 容量 大 小 ， 以 字 市 
(Byte) 为 单位 。 这 里 要 注意 ， 标 称 的 数据 都 以 十 进 制 为 单位 的 ， 程 
序 员 出 身 的 人 容易 把 它 当 成 二 进 制 。 同 样 一 组 数据 ， 二 进 制 比 十 进 制 
会 多 出 7% 的 容量 ， 例 如 : 


十 进 制 128GB: 128x1000x1000x1000=128000000000 字 节 


二 进 制 128GB: 128x1024x1024x1024=137438953472 字 节 


以 二 进 制 为 单位 的 容量 行业 内 称 为 裸 容 量 ， 以 十 进 制 为 单位 的 容 
量 称 为 用 户 容 量 。 

裸 容量 比 用 户 容 量 多 出 7%。 这 里 指 GB 级 ， 当 进入 到 TB 级 时 ， 数 
值 差 距 更 大 。 读 者 可 自行 计算 。 


对 于 内 存 本 呈 ， 它 是 裸 容量 。 那 么 ， 裸 容量 多 出 的 7% 容 量 在 SSD 
内 部 做 什么 用 呢 ? SSD 可 以 利用 这 多 出 来 的 7% 空 间 管 理 和 存储 内 部 数 
据 ， 比 如 把 这 部 分 额外 的 空间 用 作 FTL 映 射 表 存 储 空间 、 垃 圾 回收 所 需 
的 预 留 交 换 空间 、 闪 存 坏 块 的 蔡 代 空间 等 。 这 里 的 7% 多 余 空 间 也 可 以 
转换 为 OP 概念 (Over Provisioning) ， 公 式 是 : 


SSD 裸 容量 一 用 户 容 量 
P apas 
PB 


2. 介 质 信息 


当前 SSD 盘 核心 存储 介质 是 内 存 ， 闪 存 这 种 半导体 介质 有 其 目 吴 物 
理 参数 ， 例 如 寿命 (PE cycles， 编 程控 除 次 数 ) 、Program (5525 
程 ) ^ Erase ( 擦 除 ) 和 Read GF) 时 间 、 温 度 对 读 写 擦 的 影响 、 内 存 
页 的 大 小 、 闪 存 块 的 大 小 ..….... 这 些 都 是 介质 的 信息 ， 介 质 的 好 坏 直 接 
影响 数据 存储 的 性 能 和 完整 性 。 


闪存 分 SLC、MLC、TLC (甚至 QLC) ， 它 指 的 是 一 个 存储 单元 
存储 的 比特 数 ( 见 表 1-6) : 


表 1-6 SLC、MLC 和 TLC 参 数 比 较 


闪存 类 型 ”| SLC | MLC | TLC 
每 单元 比特 数 | 1| 2| s 
擦 除 次 数 (k) | 100 | 3 1 
污 取 时 间 (us) wm) 75 
编程 时 间 Cus) 1 000 
擦 除 时 间 Cus) Ee 4 500 


SEC (Single-Level Cell) 即 单 个 存储 单元 存储 1bit 的 数据 。SLC 速 
度 快 ， 寿 命 长 〈5 万 一 10 万 次 擦 写 寿 命 ) ， 但 价格 超 贯 〈 约 是 MLC 3 倍 
以 上 的 价格 ) 


.MLC m Level Cell) 即 单个 存储 单元 存储 2bit 的 数据 。MLC 
速度 一 般 ， 寿 命 一 般 ( 约 为 3k~10k 次 擦 写 寿命 ， 价 格 一 般 。 


TLC (Trinary-Level Cell). 即 单个 存储 单元 存储 3bit 的 数据 ， 也 有 
速度 慢 ， 寿 命 短 〈 约 500~1500 次 擦 写 寿 命 ) ， 价 格 
宜 。 


2D 对 比 3D NAND 


2D NAND 3D NAND 
图 1-16 2D vs.3D 闪 存 结构 示意 图 


内 存 发 展 到 现在 ， 经 历 了 2D 平 面 到 现在 的 3D 立 体制 程 (Process) 
的 大 发 展 ， 目 标 只 有 一 个 : 人 硅 片 单位 面积 (mm?) 能 设计 生产 出 更 多 
的 比特 (bit) ， 让 每 GB 成 本 和 价格 更 低 。 这 是 介质 厂商 的 目标 和 客户 
的 诉求 ， 同 时 也 是 半导体 工业 发 展 的 趋势 。 


来 看 一 下 2D 到 3D 的 单位 面积 比特 数 的 比较 ( 见 表 1-7) , 482 
Samsung 的 3D VNAND 每 平方 这 米 能 生产 出 2600Mb 的 数据 ，3 倍 于 2D 
内 存 ， 所 以 同样 的 晶 元 可 以 切割 3 倍 的 数据 量 ， 简 单 计算 的 话 每 GB 的 
价格 能 降 为 原来 的 /3。 

表 1-7 不 同 内 存 密度 对 比 
Samsung 48L V-NAND 


年 份 
制程 节点 (nm) 
Die 容量 (Gb) 
Die 面积 (mm? ) 
密度 (Mb/mm? ) 


最 后 我 们 来 看 一 下 各 家 内 存 生 产 发 展 节 点 图 ( 见 图 1-17) ， 若 一 名 
话 来 概括 最 终 竞争 的 目标 ， 则 为 ， 在 制程 允许 的 范围 内 ， 发 展 更 密 、 
更 快 、 价 格 更 低 的 内 存 产品 。 


Manufacturers 2014 2015 1H16 2H16 1H17 2H17 2018 2019 2020 


19nm-Y 15nm 


96L(or 1281) 256L 


mcron (加 


3D XPoint™ (Optane| Intel, QuantX, Micron) 


es 
| | FLASH 
l - (|^ TECHNOLOGIES 32L(Gen1) 64L(Gen2) 128L(Gen3) 


an rt rue 


14nm 
NC E2NAND, E3NAND 


SK ynix 36L(V2) 48L(V3) 


图 1-17 ”闪存 原 厂 路 线 图 
3. 外 观 尺 寸 


SSD 是 标准 件 ， 外 观 尺 寸 需要 满足 一 定 的 规定 要 求 (长 宽 高 和 接口 
连接 器 ) ， 这 又 通常 称 为 Form Factor。 那 SSD 会 有 哪些 Form Factor 呢 ? 
细 分 为 3.5 寸 、2.5 寸 、1.8 寸 、M.2、PCIe card、mSATA、U.2 等 Form 
Factor 标 准 〈 见 图 1-18) ， 每 个 Form Factor 也 都 有 三 围 大 小 、 重 量 和 接 
口 引 脚 等 明确 规范 。 
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2.5" SATA mSATA M.2 PCIe Add-In Card 
图 1-18 SSD 尺寸 部 分 一 览 
Form Factor 标 准 组 织 : 
‘https://www.snia.org/forums/sssi/knowledge/formfactors 


:http://www.ssdformfactor.org/ 


4. 其 他 
我 们 这 里 看 看 温度 和 认证 及 兼容 性 信息 这 两 个 参数 。 


温度 所 有 工业 品 都 有 温度 规范 ，SSD 应 在 一 定 温度 范围 内 使 
用 。 工 作 温 度 为 0*C~70*C ， 说 的 是 SSD 在 运行 状态 时 的 温度 ， 超 出 这 
个 温度 范围 SSD 可 能 出 现 产 品 异常 和 数据 异常 ， 这 不 在 产品 保证 和 保修 
范围 内 。 非 工作 温度 为 -50"C~-90C， 这 是 SSD 储 存 和 运输 期 间 的 温 
度 ， 也 就 是 在 非 开 机 工作 状态 下 ， 产 品 运 输 和 仓库 存储 时 的 参考 温度 
参考 。 超 出 -50*C~-90*C，SSD 可 能 会 发 生 损 坏 。 


.认证 及 兼容 性 信息 〈 见 图 1-19) : SSD 硬 件 和 软件 都 应 通过 一 定 
认证 测试 来 反映 产品 的 标准 测试 情况 ， 从 而 让 客户 明确 是 不 是 过 了 相 
应 的 测试 。 标准 组 织 属于 第 
三 方 ， 独 立 客 观 ， 测 试 通 过 意味 着 可 以 免 去 客户 一 部 分 测试 。 


m Certifications and Declarations 


— UL*, CE*, C- Tick", BSMI*, KCC*, Microsoft* WHCK, VCCI^*, 
SATA-|IO* 


m Compatibility 


— Windows 7* and Windows 8*, and Windows 8.1* 
— Windows Server 2012* R2 
— Windows Server 2012* 


图 1-19 SSD 兼 容 性 示例 


1.5.3. TEBRERUPT 
1. 性 能 指标 

硬盘 性 能 指标 一 般 包括 IOPS (Input Output Operations Per Second, 
反映 的 是 随机 读 写 性 能 ) ^ PEE (Throughput， 单 位 MB/s， 反 了 映 的 


是 顺序 读 写 性 能 ) ^ Response Time/Latency 《响应 时 间 / 时 延 ， 单 位 ms 
或 hs) 


.IJOPS: 单位 IOPS， 即 设备 每 秒 完成 IO 请 求 数 ， 一 般 是 小 块 数据 读 
写 命令 的 响应 次 数 ， 比 如 4KB 数 据 块 尺寸 。IOPS 数 字 越 大 越 好 。 


AIE: 单位 MB/s， 即 每 秒 读 写 命令 完成 的 数据 传输 量 ， 也 叫 带 
宽 (Bandwidth) , 一般 是 大 块 数据 读 写 命令 ， 比 如 512KB 数 据 块 尺 
T o PEERKE ° 

-响应 时 间 : 也 叫 时 延 (Latency) ， 即 每 个 命令 从 发 出 到 收 到 状态 
回复 所 需要 的 响应 时 间 ， 时 延 指标 有 平均 时 延 (Average Latency) 和 最 
大 时 延 两 项 (Max Latency) 。 了 响应 时 间 越 小 越 好 。 
2. 访 问 模式 


性 能 测试 设计 上 要 考虑 访问 模式 (Access Pattern) ， 包 括 以 下 三 
分: 


nk 


-Random/Sequential: 随机 (Random) 和 连续 (Sequential) 数据 命 
令 请 求 。 何 为 随机 和 连续 ? 指 的 是 前 后 两 条 命令 LBA 地 址 是 不 是 连续 
的 ， 连 续 的 地 址 称 为 Sequential， 不 连续 的 地 址 称 为 Random 。 


Block Size: 块 大 小 ， 即 单条 命令 传输 的 数据 大 小 ， 性 能 测试 从 
4KB~512KB 不 等 。 随 机 测试 一 般 用 小 数据 块 ， 比 如 4KB; 顺序 测试 一 
般 用 大 块 数据 ， 比 如 512KB 。 

-Read/Write Ratio: 读 写 命令 数 混 合 的 比例 。 


任何 测试 负 人 荷 (workload) 都 是 这 些 模式 的 组 合 ， 比 如 : 


1) 顺序 读 测试 : 指 的 是 LBA 连 续 读 ， 块 大 小 为 256KB、512KB 等 
大 尺寸 数据 块 ， 读 写 比 例 为 100%: 0; 


2) 随机 写 测试 ， 指 的 是 LBA 不 连续 的 写 ， 块 大 小 一 般 为 4KB， 读 
写 比 例 为 0:” 100%; 


3) 随机 混合 读 写 ， 指 的 是 LBA 不 连续 的 读 写 混合 测试 ， 块 大 小 一 
般 为 4KB， 读 写 保持 一 定 的 比例 。 


3. 时 延 指 标 


时 延 有 平均 时 延 和 最 大 时 延 ， 数 值 越 低 越 好 。 平 均 时 延 计 算 公 式 
征 整 个 应 用 或 者 测试 过 程 中 所 有 命令 啊 应 时 间 总 和 除 以 命令 的 个 数 ， 
有 反映 的 是 SSD 忌 体 平 均 时 延性 能 ， 最 大 时 延 取 的 是 在 测试 周期 内 所 有 命 
令 中 啊 应 时 间 最 长 的 那 笔 ， 反 映 的 是 用 户 体验 ， 例 如 最 大 时 延 影响 应 
用 通过 操作 系统 操作 SSD 时 有 无 卡 顿 的 用 户 体验 。 时 延 上 了 秒 级 ， 用 户 
就 会 有 明显 的 卡 顿 感知 。 


4. 服 务 质 量 指 标 


服务 质量 (Quality of Service, QoS) 表达 的 是 时 延 “ 置 信 
级 ”(Confidence Level) ， 如 图 1-20 所 示 ， 在 测试 规定 的 时 间 内 使 用 2 
个 9 (99%) 到 5 个 9 (99.99996) 的 百分比 的 命令 中 最 大 的 时 延 (Max 
Latency) ， 也 就 是 最 慢 的 那 条 命令 的 啊 应 时 间 。 整 体 上 看 ， 一 个 SSD 
一 QoS 时 延 分 布 整体 越 靠 左 越 好 ， 即 时 延 越 小 越 好 。 


置信 级 图 
Latency — Level of 99% — Level of 99.996 Level of 99.99% Level of 99.999% === 96 Confidence 


500 000 100 
js oéó [9999 [99.9% 99.99% 99.999% | | go 
400 000 C 80 
350 000 70 
300 000 60 

4. 250 000 50 4 

200 000 40 | 
150 000 30 
100 000 | 20 
50 000 | 10 

0 


0 
0.00.5 1.01.5 2.0 2.35 3.03.5 4.0 4.5 5.0 5.5 606.5 7.0 7.5 808.5 9.09.5 
时 间 Cms) 


图 1-20 SSD 时 延 分 布 图 


对 消费 级 硬盘 来 说 ， 用 户 对 时 延 要 求 可 能 不 是 很 高 。 但 对 企业 级 
硬盘 来 说 ， 像 数据 中 心 (Data Center) 等 企业 应 用 对 时 延 的 要 求 很 敏 
感 ， 比 如 BAT 〈 百 度 、 阿 里 巴巴 、 腾 讯 ) 的 互联 网 应 用 ， 时 延 的 大 小 
关乎 用 户 体验 和 互联 网 应 用 快慢 的 问题 。 这 种 类 型 的 应 用 对 IOPS 和 大 
而 更 在 乎 时 延 《包括 平均 时 延 、 最 大 时 延 或 服务 
质量 等 指标 ) 。 


我 们 来 看 一 组 性 能 测试 数据 ， 包 括 SSD、HDD 和 SSHD (SSD 和 
HDDR AEA) 的 性 能 数据 ， 如 图 1-21 所 示 。 


SSD, HDD 和 SSHD 性 能 数据 总 结 


种 类 IOPS (数字 越 大 越 好 ) Tabl (数字 越 大 越 好 


| Form Factor, SE s 
Dr: Capacity, 网 id ENDE EEND EE END AER arm z E 
P acd 1006 100% W | 6535RW | 100%R 


HDD 和 SSHD 


7200RPM |2.5" SATA 
SATA Hybrid | 500 GB 97MB/ | 99MB 
R304 WCD 
15000 RPM |... 
$4MB/s | 90MB/ 
$0 GB WCD s : 


消费 级 SSDs 


mSATA 

32 GB 18 000 838 52 793 79 MB/s | 529 MB/s 
R32-336 WCD 
SATA 3 SATA3 
SSD 256 GB 56 986 3147 3779 29 876 240 MB/s | 400 MB/s 
IN8-1025 WCD 
SATA 3 SATA3 
SSD 256 GB 60 090 60 302 41 045 40 686 249 MB/s | 386 MB/s 
R30-5148 WCE 


企业 级 SSDs 


Enterprise SAS 
SAS SSD 400 GB 61929 24 848 29 863 53 942 393 MB/s | 496 MB/s 5m 
RI-2288 WCD 


Server PCIe 
PCIe SSD 320 GB 133 560 73 008 53 797 54327 663 MB/s | 772 MB/s 
WCD 


n PCIe 
; 700 GB 417 469 202 929 411 390 684284 |1343 MB/s | 2 053 MB/s 
IN24-1349 | WCD 


图 1-21 SSD、HDD 和 SSHD 人 性 能 数据 一 览 


测量 指标 包括 空 盘 (FOB, Fresh out of Box) ^U rHJIOPS ^ Æ 
吐 量 、 平 均 时 延 和 最 大 时 延 。 


测试 空 盘 IOPS 用 的 测试 模式 是 “RND 4KB 100%W”， 即 4KB (二 进 
tAKB, Bl4096*z 1$) 随机 100% 纯 写 。 


测试 满 盘 下 IOPS， 用 了 三 种 测试 模式 ， 分 别 为 : 


1) RND 4KB 100%W: 数据 块 大 小 为 4KB 的 写 命令 ，100% 随 机 
E, 


2) RND 4KB 65: 35RW: 数据 块 大 小 为 4KB 的 读 写 命令 ，65% 的 
读 ，35% 的 写 ， 混合 随机 读 写 ; 


3) RND 4KB 100%R: 数据 块 大 小 为 4KB 的 读 命 令 ，100% 随 机 
i o 


从 图 1-21 中 我 们 可 以 看 出 ， 对 HDD 和 SSHD， 满 盘 下 和 空 盘 下 写 的 
IOPS 相 差 不 大 (都 很 糟糕 ) ， 而 对 SSD 来 说 ， 满 盘 和 空 盘 写 的 IOPS 相 
差 很 大 。 这 是 因为 ， 对 HDD 来 说 ， 满 盘 后 ， 没 有 垃圾 回收 操作 ， 所 以 
空 盘 和 满 盘 下 写 的 性 能 差不多 ; 但 对 SSD 来 说 ， 满 盘 后 ， 写 会 触发 垃圾 
回收 ， 导 致 写 性 能 下 降 。 


对 消费 级 SSD 来 说 ， 商 家 给 的 测试 数据 一 般 是 空 盘 下 测试 的 数据 ， 
数字 相当 好 看 , "imm nit IER o ER, RMSE 
EBERT RIRE, BARIH, SMR A ^ Id 
e a UL 还 有 可 能 束 古 SLC 绥 存 用 完了 ， 这 里 束 不 具体 展 

[fe 


对 企业 级 SSD 来 说 ， 客 户 更 关注 的 是 稳 态 性 能 ， 即 满 盘 性 能 。 所 
以 ， 商 家 给 出 的 性 能 参数 一 般 是 满 盘 数据 ,“ 最 高 可 达 ” 字 眼 消 失 。 我 
们 可 以 从 有 没有 “最 高 可 达 ” 来 快速 判断 一 个 盘 是 企业 级 还 是 消费 级 。 

关于 否 吐 量 测试 ， 有 两 种 模式 ， 分 别 为 : 

1) SEQ 1024KB 10096W: 数据 块 大 小 为 1024KB 的 顺序 写 测 试 ; 


2) SEQ 1024KB 100%R: 数据 块 大 小 为 1024KB 的 顺序 读 测试 。 


关于 时 延 ， 如 前 所 述 ， 有 平均 时 延 和 最 大 时 延 两 种 ， 其 中 最 大 时 
延 反 映 的 是 服务 质量 。 测 试 模式 都 是 4KB 100% 随 机 写 。 从 上 可 以 看 
出 ，SSD 测 试 的 是 cache on 下 的 时 延 ， 即 数据 到 SSD 的 内 部 缓冲 区 即 返 
回 命令 状态 。 为 什么 不 是 FUA? 因为 对 闪存 来 说 ， 即 使 是 SLC， 也 没有 
办 法 做 到 几 十 微 秒 就 能 写 入 到 内存。 如果 是 FUA 命 令 测 试 的 话 ， 其 平 
均 时 延至 少 是 几 百 微 秒 。 


1.5.3 ”寿命 剖析 


用 户 拿 到 一 款 SSD， 除 了 关心 其 容量 和 性 能 参数 外 ， 还 会 关心 它 的 
寿命 (Endurance) 指标 ， 也 就 是 在 SSD 产 品 保质 期 内 ， 总 的 寿命 是 多 
少 ， 能 写 入 多 少 字 的 数据 量 。 衡 量 SSD 寿 命 主要 有 两 个 指标 ， 一 是 
DWPD (Drive Writes Per Day) ， 即 在 SSD 保 质 期 内 ， 用 户 每 天 可 以 把 
盘 写 满 多 少 次 ; 另 一 指标 是 TBW (Terabytes Written) ， 在 SSD 的 生命 
周期 内 可 以 写 入 的 总 的 字 布 数 。 


1.DWPD 
回头 看 一 下 上 面 的 S3710SSD 的 Endurance 项 : 


m Endurance: 10 drive writes per day? for 5 years 


— 200GB: 3.6PB 400GB: 8.3PB 
— 800GB: 16.9PB 1.2TB: 24.3PB 


200GB SSD 五 年 使 用 期 限 内 对 应 的 寿命 是 3600TB， 平 均 到 每 天 可 
以 写 入 3600TB/ (5x365) =1972GB， 这 块 盘 本 身 200GB，1972GB 相 当 
于 每 天 写 入 10 次 ， 也 就 是 规范 书 说 的 10Drive Writes Per Day, EK 
10DWPD。DWPD 为 5 年 的 寿命 期 内 每 天 可 以 满 一 写 入 的 次 数 。 


由 上 可 以 看 出 ， 总 的 写 入 量 可 以 换算 成 DWPD， 一 些 SSD 指 标 上 更 
多 使 用 DWPD 作 为 寿命 参数 。 这 里 要 特别 说 明 的 是 ， 从 应 用 的 角度 出 
发 ， 多 数 应 用 读 多 写 少 ， 少 数 应 用 写 多 读 少 ， 应 用 不 同 ， 对 SSD 的 寿命 
要 求 也 不 同 。 所 以 我 们 可 以 将 其 归 类 为 ， 写 密集 (WriteIntensive) 和 
读 密 集 (ReadIntensive) 两 种 类 型 。 


表 1-8 比 较 好 地 归纳 出 应 用 场合 和 应 用 读 写 特点 所 需求 的 DWPD 参 
数 ， 这 里 束 不 展开 解释 了 。 


表 1-8 DWPD 参 数 


BRE ER 

写 密集 vvv | 关键 应 用 : 数据 库 、 媒 体 编辑 、 虚 拟 化 

- 般 读 密集 污 写 差不多 的 应 用 :数据 仓库 、 读 缓存 

重度 读 密集 写 少 读 多 应 用 : 启动 分 区 、 网 页 或 文件 服务 器 、 视 频 播放 


天 下 没有 免费 的 午餐 ，DWPD 越 大 ， 单 盘 价格 自然 越 高 。 所 以 用 
户 需 要 思考 的 是 什么 应 用 场景 使 用 SSD， 以 及 使 用 哪 种 DWPD 寿 命 的 
SSD， 照 顾 性 能 和 经 济 的 双重 平衡 。 最 好 的 平衡 艺术 就 是 根据 用 户 数据 
的 生存 期 及 热度 分 层 ， 或 者 在 技术 架构 上 根据 数据 冷 热 和 存在 时 间 为 
数据 打 标 签 ， 然 后 放 入 对 应 的 层级 以 及 不 同 DWPD 的 SSD。 


以 下 是 一 个 典型 的 应 用 场景 的 SSD 分 级 应 用 ，OLTP (联机 事务 处 
E) 有 大 量 写 应 用 的 数据 (术语 叫 热 数据 ， 人 性 能 要 求 极 高 ， 所 以 放 
入 T1-WISSD 层 ， 这 一 层 SSD 单 盘 价格 高 ， 总 容量 低 ; 第 二 层 是 写 少 读 
多 应 用 〈 术 语 叫 温 数 据 ) ， 人 性 能 要 求 也 很 高 ， 所 以 使 用 T2-RI SSD 存 放 
数据 ; 第 三 层 基本 上 是 冷 数据 ， 极 少 被 读 到 和 写 到 ， 所 以 用 大 容量 低 
价 的 HDD 也 无 可 厚 非 。 总 体 来 说 OLTP 用 到 了 40% 的 SSD， 算 是 对 SSD 
需求 量 比较 高 的 应 用 类 型 。 当 然 也 有 不 太 需 要 SSD 的 应 用 ， 如 图 1-22 最 
右 列 所 示 的 Disaster Recovery 〈 容 灾 备 份 ) ° 


数据 库 数据 仓库 容 灾 恢复 


aou BREMEN aL » f 
MSS 了 3 d 
T1 - 


-WI SSD T1-RESSD T1-145 TB10K 
T2-RESSD T3-HDD TB:7K 


存档 的 数据 T3-HDD 10K 
40% SSD 15% SSD 0% SSD 
数据 库 查 找 表 图片 库 和 二 级 数据 
图 1-22 ”数据 分 层 及 SSD 应 用 
最 后 我 们 来 看 一 下 现实 世界 对 SSD 的 DWPD 要 求 。 数 据 显示 更 多 的 
应 用 是 写 少 读 多 ，83% 的 应 用 使 用 少 于 1DWPD 的 SSD。 想 象 一 下 消费 
级 SSD， 我 们 每 天 的 数据 写 入 量 是 极 少 的 ， 熏 生命 周期 内 几乎 不 会 被 填 


满 ， 所 以 极 低 的 DWPD 是 可 以 接受 的 。 业 界 主流 的 消费 级 SSD DWPD 
是 0.3。 可 以 预见 的 是 ， 数 据 爆 炸 的 时 代 ， 用 户 对 数据 总 量 的 需求 是 逐 
年 递增 的 ， 即 新 增 数 据 成 倍数 逐年 增加 ， 尤 其 是 企业 级 应 用 ， 这 个 83%6 


AE? 管 案 是 肯定 的 。 


SSD 中 DWPD 的 分 布 


49% 
23% 
11% 14% 
3% 
0.1 0.5 l 5 10 
DWPD {Ë 


83% "P F 1 DWPD 
图 1-23 SSD DWPD 现 实 需求 
2.TBW 
TBW 束 古 在 SSD 的 生命 周期 内 可 以 写 入 的 总 的 字 市 数 ， 用 来 表达 
SSD 的 寿命 指标 。 从 SSD 的 设计 来 看 ， 如 何 设 计 来 满足 SSD 的 TBW 要 求 
或 者 SSD 的 TBW 是 如 何 计 算 的 ? 哪些 因素 会 影响 SSD 的 TBW? 
先 给 一 个 公式: 


< NAND PE Cylces (NAND 5j 擦 除 寿 命 ) 


总 写 入 量 TBW=Capacity ( 单 盘 容量 ) N 
7AE apacity 单 盘 容量 eem 


式 中 : 
:NAND PE Cycles: SSD 使 用 的 内 存 标 称 写 探 除 次 数 ， 如 3K、5K ° 
Capacity: SSD 单 到 用 户 可 使 用 容量 。 


WA: 写 入 放大 系数 ， 这 跟 SSD FW 的 设计 和 用 户 的 写 入 的 数据 类 
型 (顺序 写 还 是 随机 写 ) 强 相 关 。 


TBW 和 DWPD 的 计算 公式 : 
TBW 


DWPD= 
Years (SSD 盘 标 称 使 用 年 限 ) X365 XCapacity (HAZE) 


有 了 上 面 的 公式 ， 你 可 以 简单 计算 一 块 SSD 强 的 TBW 或 者 由 TBW 
计算 每 天 的 写 入 量 。 


1.5.4 ”数据 可 徘 性 剖析 


SSD 有 几 个 关键 指标 来 衡量 其 可 靠 性 : UBER ^ RBERAIMTBEF ° 


"UBER: Uncorrectable Bit Error Rate， 不 可 修复 的 错误 比特 率 。 

-RBER: Raw Bit Error Rate， 原 始 错误 比特 率 。 

:MTBF: Mean Time Between Failure， 平 均 故 障 间 隔 时 间 。 
1.29038 n] 3E TIE 

RITRAE PS3710SSD-FJif" Reliability (可 靠 性 ) 项 的 截图 : 


m Reliability 
— Uncorrectable Bit Error Rate (UBER): 
1 sector per 10^ bits read 
— Mean Time Between Failures (MTBF): 2 million hours 
— End-to-End data protection 


UBER 是 一 种 数据 损坏 率 衡 量 标准 ， 等 于 在 应 用 了 任意 特定 的 错误 
* r5 To 比特 读 取 的 数据 错误 数量 占 总 读 取 数 量 的 比 
Wi MAS o 


为 什么 SSD 要 定义 UBER? 任何 一 项 存储 设备 产品 ， 包 括 HDD， 用 
户 最 关心 的 都 是 数据 保存 后 的 读 取 正 确 性 。 试 想 数据 丢失 和 损坏 对 客 
户 产生 的 后 果 是 怎么 样 的 ? 尤其 是 企业 级 用 户 数据 。 那 如 何 让 用 户 相 
信 存 储 设备 系统 是 可 靠 的 呢 ? UBER 指 标 描 述 的 是 出 现 数据 错误 的 概 
率 ， 给 用 户 以 直观 的 概率 数据 以 描述 错误 数据 出 现 的 可 能 性 ， 当 然 该 
指标 越 低 越 好 。 


为 什么 会 产生 错误 数据 ? SSD 的 存储 介质 是 内 存 ， 闪 存 有 天 然 的 数 
据 比 特 翻 转 率 。 主 要 有 以 下 儿 种 原因 导致 : 


- 擦 写 磨损 (P/E Cycle) 。 


: 读 取 干扰 (Read Disturb) ° 
:编程 干扰 (Program Disturb) ° 


.数据 保持 (Data Retention) 发 生 错误 。 


虽然 SSD 主 控 和 固件 设计 会 用 纠 错 码 (ECC) 的 方式 (可 能 还 包括 
其 他 方式 ， 如 RAID) 来 修正 错误 数据 ， 但 错误 数据 在 某 种 条 件 下 依然 


有 纠 不 回来 的 可 能 ， 


所 以 需要 用 UBER 让 用 户 知道 数据 误 码 纠 不 回来 的 


闪存 原始 的 数据 比特 翻转 加 上 BCH 码 (一 种 ECC 纠 错 算法 ) 经 
ECC 校 验 码 保护 后 ， 可 以 计算 转换 到 UBER。 影 响 UBER 最 核心 的 因素 
是 RBER。 图 1-24 所 示 为 从 RBER、ECC 编 码 长 度 (Code Length) 和 保 
护 强度 (Strength) 换算 到 UBER， 从 中 得 出 结论 : 相同 的 ECC 编 码 长 


度 ， 随 着 保护 强度 的 增长 ，UBER 在 大 幅度 降低 。 


编码 长 度 


8192 
8192 
8192 
8192 
8192 
8192 
8192 


并 呈 指 数 级 降低 ， 如 图 1-25 所 示 。 


RBER 。 纠 错 强度 


1.25e-3 37 
1.25e-3 38 
1.25e-3 39 
1.25e-3 40 
1.25e-3 41 
1.25e-3 42 
1.25e-3 43 


TES 
0.937 
0.935 
0.933 
0.932 
0.930 
0.928 
0.927 


UBER 


2.705e-14 
7.012e-15 
1.775e-15 
4.383e-16 
1.057e-16 


图 1-24 UBER 和 纠 错 强 度 的 关系 
在 相同 的 ECC 编 码 长 度 和 保护 强度 下 ，RBER 越 低 ，UBER 越 低 ， 


i 4000x 


RBER 反 映 的 是 内 存 的 质量 。 所 有 内 存 出 广 时 都 有 一 个 RBER 指 
标 ， 企 业 级 闪存 和 消费 级 内 存 的 RBER 显 然 是 不 同 的 ， 价 格 当然 也 有 所 
不 同 。RBER 指 标 也 不 古 固 定 不 变 的 ， 如 图 1-26 所 示 ， 内 存 的 数据 错误 


率 会 随 着 使 用 寿命 (PE Cycle) 的 增加 而 增加 。 为 了 挑战 极限 ， 必 须 准 
备 好 人 处理 每 100 个 bit 就 有 1 个 坏 bit 的 情况 。 


编码 长 度  RBER 纠 错 强度 但 率 UBER 

8192 2.75e-3 40 0.932 

8192 2.50e-3 40 0.932 2.116e-07 

8192 2.25e-3 40 0.932 1.987e-08 

8192 2.00e-3 40 0.932 1.128e-09| | 840 000 000x 
8192 1.75e-3 40 0.932 3.373e-11 

8192 1.50e-3 40 0.932 4.350e-13 

8192 1.25e-3 40 0.932 


107! 


10? 


10^? 


PE Cycles 
图 1-26 ”RBER 和 PE 的 关系 


RBER 还 跟 内 存 内 部 结构 也 有 关系 。 两 个 相 邻 内 存 块 的 RBER 有 可 


能 完全 不 同 ， 图 1-27 是 单个 内 存 块 里 面 不 同 闪存 页 的 RBER 分 布 图 。 看 


得 出 来 ，Upper Page 的 RBER 比 Lower Page 的 RBER 要 高 两 个 数量 级 。 


o Lower pages 
Upper pages 


x 10? 


Page index within block 


图 1-27 Lower&Upper page RBER 
通常 商用 企业 级 和 消费 级 SSD 的 UBER 指 标 如 表 1-9 所 示 。 
表 1-9 ”企业 级 和 消费 级 SSD 的 UBER 值 需求 


UBER 
企业 级 (Enterprise) 10-7 甚至 10718 
消费 级 ( Client) 105 


2.MTBF 


工业 界 MTBF 指 标 反映 的 是 产品 的 无 故障 连续 运行 时 间 ， 也 是 产品 
的 可 车 性 指标 。MTBEF 计 算 有 一 些 标准 ， 目 前 最 通用 的 权威 性 标准 是 
MIL-HDBK-217、GJB/Z299B 和 Bellcore， 分 别 用 于 军工 产品 和 民用 产 


。 其 中 ，MIL-HDBK-217 是 由 美国 国防 部 可 靠 性 分 析 中 心 及 Rome 实 
ni 现 已 成 为 行业 标准 ， 专 门 用 于 军工 产品 MTBF 值 的 计算 ; 
GJB/Z299B 是 我 国 的 军用 标准 ，Bellcore 是 由 AT&T 贝 尔 实验 室 提出 的 ， 

现 已 成 为 商用 电子 产品 MTBF 值 计算 的 行业 标准 。 


MTBF 主 要 考虑 的 是 产品 中 每 个 器 件 的 失效 率 。 但 由 于 器 件 在 不 同 
的 环境 、 不 同 的 使 用 条 件 下 其 失效 率 会 有 很 大 的 区 别 ， 例 如 ， 同 一 产 
品 在 不 同 的 环境 下 ， 如 在 实验 室 和 海洋 平台 上 ， 其 可 靠 性 值 肯 定 是 不 
同 的 ;， 又 如 一 个 额定 电压 为 16V 的 电容 在 实际 电压 为 25V 和 5V 下 的 条 件 
失效 率 肯 定 也 是 不 同 的 。 所 以 ， 在 计算 可 靠 性 指标 时 ， 必 须 考 虑 多 种 
因素 。 所 有 这 些 因素 几乎 无 法 通过 人 工 进 行 计算 ， 但 借助 软件 CU 
MTBFcal 软 件 ) 和 其 庞大 的 参数 库 ， 能 够 轻松 得 出 MTBEF 值 。 


对 于 SSD 而 言 ，JESD218A 标 准 定义 了 测试 SSD 每 天 读 / 写 量 的 方 
法 ， 还 补充 了 SSD 一 些 额 外 的 失败 测试 。 要 考虑 的 另 一 件 事 是 : 什么 工 
作 负 载 用 于 测试 MTBF? 例如 合格 的 SSD 使 用 工作 负载 每 大 与 写 20GB， 

共 5 年 ， 基 于 这 个 工作 负载 加 上 补充 性 失效 测试 ， 这 球 SSD MTBF 可 
达到 120 万 小 时 。 但 如 果 工 作 量 减少 到 每 天 写 10GB，MTBF 将 变 为 250 
万 小 时 ， 如 果 每 天 写 5GB， 就 是 400 万 小 时 。 


1.5.5” 功 耗 和 其 他 剖析 


1.SSD 产 品 功 耗 
SSD 定 义 了 以 下 几 种 功 耗 类 型 ; 


ZA (dle) 功 耗 : 当主 机 无 任何 命令 发 给 SSD，SSD 处 于 空 闻 状 
态 但 也 没有 进入 省 电 模 式 时 ， 设 备 所 消耗 的 功 耗 。 


'Max active 功 耗 : 最 大 功 耗 是 SSD 处 于 最 大 工作 负载 下 所 消耗 的 功 
耗 ，SSD 的 最 大 工作 负载 条 件 一 般 是 连续 写 ， 让 内 存 并 发 忙 写 和 主 控 
ASIC 满 负 奏 工作 ， 这 时 的 功 耗 值 对 应 最 大 功 耗 。 


“Standby/Sleep 功 耗 : 规范 规定 了 SSD 状 态 ， 包括: Active ^ Idle ^ 
Standby 和 Sleep， 功 耗 值 从 Active 到 Sleep 逐 级 递减 ， 具 体 的 实现 由 各 商 
家 自行 定义 。 一 般 来 讲 ， 在 Standby 和 Sleep 状 态 下 ， 设 备 应 尽 可 能 把 不 
工作 的 硬件 模块 关闭 ， 降 低 功 耗 。 一 般 消 费 级 SSD Standby 和 Sleep 功 耗 
23100--500mW ° 


DevSleepZ] $6: 这 是 SATA 和 PCIe 狐 定义 的 一 种 功 耗 标准 ， 日 的 十 
在 Standby 和 Sleep 基础 上 再 降 一 级 功 耗 ， 配 合 主 机 和 操作 系统 完成 系统 
在 休眠 状态 下 (如 Hibermate) , SSDXHS— UJ B APRE, 处 于 极致 低 功 
耗 模 式 ， 甚 至 是 零 功 耗 。 一 般 是 10mW 以 下 。 


对 于 主机 而 言 ， 它 的 功 耗 状态 和 SSD 作 为 设备 端 是 一 一 对 应 的 ， 而 
功 耗 模式 发 起 端 是 主机 ，SSD 被 动 执行 和 切换 对 应 功 耗 状态 。 


系统 Power State (SATA SSDÍE2JOSZ7X) : 


S0: 工作 模式 ，OS 可 以 管理 SATA SSD 的 Power State，D0 或 者 D3 
都 可 以 。 


S1: 是 低 唤 醒 延 迟 的 状态 ， 系 统 上 下 文 不 会 丢失 (CPU 和 
Chipset) ， 硬 件 负 责 维持 所 有 的 系统 上 下 文 。 


与 Sl 相似， 不 同 的 是 处 理 器 和 系统 Cache 上 下 文 会 丢失 (OS 
负责 给 护 Cache 和 处 理 器 上下文) o 收 到 唤醒 要 求 后 ， 从 处 理 右 的 reset 


vector 开 始 执行 。 


.S3: 睡眠 模式 (Sleep ，CPU 不 运行 指令 ，SATA SSD 关 闭 ， 除 
了 内 存 之 外 的 所 有 上 下 文 都 会 丢失 。 和 硬件 会 保存 一 部 分 处 理 硕 和 
L2cache 配 置 上 下 文 ， 从 处 理 器 的 reset vector 开 始 执行 。 


.S4: 休眠 模式 (Hibernation) ，CPU 不 运行 指令 ，SATA SSD 关 
路 ，DDR 内 容 写 入 SSD 中 ， 所 有 的 系统 上 下 文 都 会 丢失 ，OS 人 负责 上 下 
文 的 保存 与 恢复 。 


.S5: Soft off state， 与 S4 相 似 ， 但 OS 不 会 保存 和 恢复 系统 上 下 文 。 
消耗 很 少 的 电能 ， 可 通过 鼠标 键盘 等 设备 唤醒 。 


进入 功 耗 模 式 有 一 定 的 时 延 ， 当 然 退 出 功 耗 模式 也 需要 一 定 的 时 
延 ， 通 常 恢复 SSD 到 初始 功 耗 模式 所 花费 的 时 间 更 长 ， 如 表 1-10 所 示 。 


表 1-10 ”各 种 功 耗 模式 下 SSD 进 入 和 退出 的 时 间 


时 延 和 性 能 之 间 存 在 看 某 种 平衡 ， 频 索 的 低 功 耗 模 式 和 下 党 模式 
之 间 换 入 换 出 ， 一 定 会 市 来 性 能 的 损失 。 对 于 SSD 设 备 功 耗 模块 设计 而 
言 ， 建 议 : 尽 可 能 优化 低 功 耗 模 式 的 进入 和 退出 时 间 。 


从 正常 工作 模式 Active 状 态 切 换 到 低 功 耗 模 式 ， 需 要 找到 正确 的 切 
换 Timer。 太 短 的 Timer 会 较 早 进入 低 功 耗 模式 ， 但 唤醒 需要 时 延 ， 吾 来 
主机 问 性 能 损失 ; 太 长 的 Timer 有 利于 维持 性 能 ， 但 牺牲 了 功 耗 。 


总 之 低 功 耗 是 一 个 好 的 SSD 特 性 ， 消 费 级 出 于 低 功 耗 需 求 ， 极 其 需 
要 这 个 特性 ， 但 企业 级 应 用 为 了 维持 性 能 ， 在 低 功 耗 上 是 弱 需 求 。 


最 后 ，SSD 各 项 功 耗 是 SSD 产 品 的 竞争 力 ， 尤 其 是 对 功 耗 敏感 的 消 
费 级 SSD 的 部 署 ， 最 大 写 入 功 耗 和 低 功 耗 是 苋 争 力 。 最 大 写 入 功 耗 代表 
的 是 写 入 同样 数据 量 所 消耗 的 电能 ， 主 要 是 内 存 写 入 功 耗 ， 低 功 耗 十 
当 用 户 空 几 或 休眠 时 设备 证 省 下 来 的 电能 ， 这 些 对 绿色 能 产 数 据 中 心 


等 场合 有 很 大 帮助 。 我 们 来 看 看 几 款 消费 级 SSD 功 耗 的 对 比 ， 


所 未 


如 图 1-28 


A SSD Slumber Power (HIPM+DIPM) 


Drive Power in mW - Lower is Better 


Samsung SSD 840 Pro 256GB (6Gbps) 


Samsung SSD 840 EVO 120GB (6Gbps) 


Samsung SSD 840 EVO 500GB (6Gbps) 


Samsung SSD 840 EVO 750GB (6Gbps) 


Samsung SSD 840 EVO 250GB (6Gbps) 


42.10 


m-- 


46.10 


47.30 


Samsung SSD 840 EVO 1TB (6Gbps) 


Crucial M500 120GB (6Gbps) 


SanDisk Extreme Il 120GB (6Gbps) ILL 


SanDisk Extreme Il 480GB (6Gbps) - 


SanDisk Extreme Il 220GB (6Gbps) EE 


0 40 80 120 160 200 240 280 320 360 
AnandTech 对 几 款 SATA SSD 的 HIPM 或 DIPM slumber 模 式 的 低 
功 耗 对 比 


最 大 写 入 功 耗 对 比 〈 除 了 ASIC 主 控 和 板 级 PCB 工 作 状 态 功 耗 ， 最 
A 写 性 能 越 高 ， 功 耗 越 高 ) 如 图 1-29 
ZR œ 


351.70 


图 1-28 


A. Drive Power Consumption - Sequential Write 


Power in W - Lower is Better 


intel SSD 335 240GB (6Gbps) -ME 1.93 
Crucial M500 120GB (6Gbps) -M 2.12 
Samsung SSD 840 EVO 120GB (6Gbps) M 2.37 
Crucial M500 240GB (6Gbps) EBENE 3.11 
Samsung SSD 840 EVO 250GB (6Gbps) -M 2.15 
Samsung SSD 840 Pro 256GB (6Gbps) EE 3.21 
Crucial M500 480GB (6Gbps) MEE 3.30 
Samsung SSD 840 Pro 512GB (6Gbps) e] 3.33 
SanDisk Extreme II 120GB (66bps) MEE 3.58 
SanDisk Ultra Plus 256GB (6Gbps)- EE 3.65 
Samsung SSD 840 EVO 750GB (6Gbps) q—À ái 3.82 
SanDisk Extreme Il 240GB (6Gbps)- MEE 3.84 
Samsung SSD 840 EVO 500GB (6Gbps) 一 3.87 
OCZ Vertex 450 256GB (6Gbps) MEE 5.5: 
Crucial M500 960GB (6Gbps) BEEN 4.00 
SanDisk Extreme I 480GB (6Gbps)- MEE 4.02 
Samsung SSD 840 EVO 1TB (6Gbps) qpem——————— áá——EJ 4.07 
Samsung SSD 840 250GB (6Gbps) ER 4.28 
Intel SSD 335 240GB (Incompressible Data) 4.32 
Samsung SSD 840 500GB (6Gbps) E34 5.62 


l 


0 06 12 18 24 3 36 42 48 54 6 


图 1-29 AnandTech 对 比 几 款 SSD 的 最 大 写 入 功 耗 
2. 最 大 工作 功 耗 与 发 热 控制 


前 面 已 解释 过 最 大 工作 功 耗 ， 单 独 把 最 大 工作 功 耗 拉 出 来 讨论 ， 
是 因为 当 SSD 一 直 处 于 最 大 功 耗 工作 负载 下 ， 器 件 会 存在 发 热 问 题 。 为 
SSD 功 耗 最 大 的 是 ASIC 主 探 和 内 存 模块 ， 因 此 二 者 也 是 发 热 大 户 ， 当 
热量 积累 到 一 定 程度 ， 器 件 会 损坏 掉 ， 这 是 一 定 不 能 容忍 的 。 当 外 界 
环境 温度 (Ambient Temperature) 处 在 50"C 或 60"C 时 ， 不 加 以 控制 ， 
发 热 的 速度 和 损坏 器 件 的 概率 也 会 随 之 增 大 。 所 以 工作 在 最 大 负载 
下 ， 控 制 SSD 温 度 是 固件 设计 要 考虑 的 ， 就 是 设计 降温 处 理 算法 。 


做 法 具体 的 原理 ， 当 SSD 温 度 传感器 侦 测 到 温度 达到 阔 值 ， 如 
70"C ， 固 件 启动 降温 算法 模块 ， 限 制 内 存 后 并 并 发 写 的 个 数 ， 由 于 
SSD 中 发 热 大 户 是 内 存 必 片 ， 故 当 写 并 发 数 减 少 后 ， 温 度 自 然 下 降 。 同 
Bree SSD 写 性 能 也 会 下 降 ， 这 是 性 能 和 温度 的 一 个 折 


当 温 度 控 制 下降 到 低 于 阐 值 70*C 后 ，SSD 固 件 重新 恢复 到 正常 的 
后 端 写 并 发 个 数 ， 人 性 能 又 会 上 升 ， 带 来 温度 再 次 上 升 ， 如 此 往复 .……… 
如 图 1-30 所 示 。 


SSD 温度 


与 的 性 能 


HACIA S 


图 1-30 温度 控制 和 SSD 性 能 的 关系 


1.5.6 SSD 系 统 兼 容 性 


SSD 的 各 项 参数 中 ， 系 统 兼 容 性 指标 无 法 量化 ， 最 不 直观 ， 也 最 
容易 被 忽视 。 但 不 可 否认 的 是 ， 实 际 应 用 场合 中 除了 性 能 功 耗 和 可 徘 
性 问题 ， 最 让 人 头疼 的 是 系统 兼容 性 问题 ， 表 现 为 各 种 场景 下 盘 无 法 
识别 、 不 兼容 某 些 型 号 主板 、 操 作 系统 无 法 兼容 等 问题 。 站 在 用 户 角 
度 ，SSD 如 的 性 能 、 功 耗 、 可 靠 性 设计 得 都 不 错 ， 测 试 出 来 的 成 绩 
很 漂亮 ， 但 束 是 系统 兼容 性 过 ， 再 好 的 盘 放 到 电脑 上 束 变 巷 ， 看 上 去 
束 古 漂亮 的 花瓶 ， 中 看 不 中 用 。 所 以 渐渐 地 用 户 开 始 重视 系统 兼容 性 
E 


从 技术 上 系统 兼容 性 问题 归 类 为 如 下 几 类 。 
1.BIOS 和 操作 系统 的 兼容 性 


SSD 上 电 加 载 后 ， 主 机 BIOS 开 始 自 检 ， 主 机 中 的 BIOS 作 为 第 一 层 
软件 和 SSD 进 行 交 互 ， 第 一 步 ， 和 SSD 发 生 链 接 ，SATA 和 PCIe 走 不 同 
的 底层 链 路 链接 ， 协 商 (negotiate) 到 正确 的 速度 上 (当然 ,不同 接 
口 也 会 有 上 下 兼容 的 问题 ) ， 自 此 主机 端 和 SSD 连 接 成 功 ， 第 一 步 ， 
发 出 识别 盘 的 命令 (如 SATA Identify) 来 读 取 盘 的 基本 信息 ， 基 本 信 
妃 包 括 产品 part number、FW 版 本 号 、 产 品 版 本 号 等 ，BIOS 会 验证 信 
息 的 格式 和 数据 的 正确 性 ， 然 后 BIOS 会 走 到 第 三 步 去 读 取 可 其 他 信 
息 ， 如 SMART， 直 到 BIOS 找 到 硬盘 上 的 主 引 导 记 录 MBR， 加 载 
MBR; 第 四 步 ，MBR 开 始 读 取 硬盘 分 区 表 DPT， 找 到 活动 分 区 中 的 分 
区 引导 记录 PBR， 并 且 把 控制 权 交 给 PBR...... 最 后 ，SSD 通 过 数据 读 
写 功能 来 完成 最 后 的 O0S 加 载 。 完 成 以 上 所 有 这 些 步骤 就 标志 着 BIOS 
和 OS 在 SSD 上 电 加 载 成 功 。 任 何 一 步 发 生 错误 ， 都 会 导致 SSD 区 互 失 
败 ， 进 而 导致 系统 启动 失败 ， 弹 出 Error window 或 蓝屏 。 


对 SSD 而 言 ， 其 功能 已 经 通过 了 日 盒 黑 盒 测 试 ， 但 上 述 的 加 载 初 
人 化 流程 以 及 特定 的 BIOS 和 OS 版 本 结合 的 相关 功能 测试 并 没有 禾 主 
到 ， 所 以 涉及 这 些 功 能 有 了 时 可 能 会 导致 SSD 设 备 加 载 失 败 。 


由 于 现实 世界 中 有 太 多 的 主板 型 号 和 版 本 号 ， 一 块 兼容 性 民 好 的 
SSD 需 要 在 这 些 主机 上 都 能 正常 运行 。 从 测试 角度 来 看 ， 系 统 兼 容 性 


认证 包括 以 下 各 个 方面 : 
:OS 种 类 (Windows ^ Linux). 和 各 种 版 本 的 OS; 
主板 上 CPU 南北 桥 忆 片 组 型 号 (Intel ^ AMD) 和 各 个 版 本 ; 
.BIOS 的 各 个 版 本 ; 

程序 类 型 和 各 个 版 本 (性 能 BenchMark 工 具 、Oracle 数 


2. 电 信 与 兼容 性 和 硬件 兼容 性 


电信 号 兼容 性 和 硬件 兼容 性 指 的 是 SSD 工 作 时 ， 主 机 提供 的 电信 
写 处 于 非 稳定 状态 ， 比 如 存在 抖动 、 信 和 号 完整 性 过 等 情况 ， 但 依然 在 
规范 误差 范围 内 ， 此 时 SSD 通 过 自身 的 硬件 设计 (比如 power 
regulator) 和 接口 信号 完整 性 设计 依然 能 正常 工作 ， 数 据 也 依然 能 
确 收发 。 同 理 ， 在 高 低温 、 电 人 厂 干 扰 的 环境 下 ，SSD 通 过 硬件 设计 要 
AEREE (Robust) 。 


3. 容 错 处 理 


普 误 处理 与 硬件 和 软件 相关 。 系 统 兼 容 性 的 容错 特 指 在 主机 端 发 
生 错 误 的 条 件 下 ，SSD 盘 即使 不 能 正音 和 主机 交互 数据 ， 至 少 不 能 变 
丰 。 当 然 ，SSD 副 大 能 容错 并 返回 错误 状态 给 主机 ， 提 供 足 够 的 日 志 
来 帮助 主机 软 硬 件 开 发 人 员 调 试 束 更 好 了 。 这 里 的 错误 包括 接口 总 线 
上 的 数据 CRC 错 误 、 丢 包 、 数 据 命 令 格式 错误 、 命 令 参数 错误 等 。 


从 设计 角度 考虑 加 入 容错 模块 设计 、 加 大 系统 兼容 性 测试 的 覆盖 
面 ， 这 些 都 是 提高 SSD 系 统 兼 容 性 的 手段 和 方法 。 但 从 过 去 的 经 验 

看 ， 系 统 兼容 性 重 在 对 主机 系统 的 理解 ， 这 需要 长 期 积累 经 验 ， 该 趟 
D 总 是 要 趟 的 ， 趟 过 后 就 变 成 经 验 了 ， 这 些 不 古书 本 上 能 直接 学 到 


最 后 要 强调 的 是 ，SSD 的 系统 兼容 性 是 SSD 的 核心 范 争 力 之 一 ， 
不 可 忽视 。 


1.6 接口 形态 


3D SD Form Factor。 由 于 SSD 是 标准 
件 ， 故 它 必须 符合 一 定 的 接口 规范 、 尺 寸 和 电气 特性 ， 这 样 在 应 用 层 
BP 所 以 厂商 和 标准 组 织 制定 了 Form Factor 规 范 ， 
SSD) 商 和 系统 提供 商都 应 遵守 e 


不 同 应 用 场景 下 的 SSD， 其 Form Factor 尺 寸 也 不 一 样 ， 如 图 1-31 所 
示 。 表 1-11 列 出 了 当下 SATA、PCIe、SAS 接 口 和 协议 的 SSD 所 使 用 的 


Form Factor ? 


Add-In-Card (AIC) MO-276 
(BGA) 


4 


MO-300a MO-300b MO-297 
(mSATA) (mSATA mini) (Half Slim) 


图 1-31 各 种 类 型 的 SSD 示 意 
表 1-11 SSD form Factor 和 接口 


M.2 2242 
M.2 2260 
M.2 2280 


M.2 22110 


SATA SSD 目 前 主要 为 消费 级 产 AEN (E VETRO" n á (如 数据 中 心 
盘 ) ， 这 类 产品 接口 和 电气 功能 比较 成 熟 ， 是 目前 出 货 量 最 大 的 SSD。 
它 的 Form Factor 的 种 类 比较 多 ， 其 中 消费 级 产品 以 M.2 和 2.5 寸 最 为 流 
行 。 消 费 级 产品 以 SATA M.2 为 主导 ， 企 业 级 产品 以 SATA 2.5 寸 为 主 


导 。 


PCIe SSD 借 助 它 的 高 性 能 、NVMe 标 准 的 制定 和 普及 ， 以 及 软件 生 
态 的 商定 ， 从 2016 年 开始 兴起 。PCIe SSD Form Factor 最 开始 起 步 于 
AIC (AddInCard) ， 采 用 主板 上 揪 卡 的 形式 ， 后 演变 到 现在 加 入 M.2 
和 U.2 形 态 。 消 费 级 PCIe SSD 由 M.2 主 导 ， 企 业 级 PCIe SSD 多 为 2.5 寸 、 
U.2 和 AIC 的 形态 。 


SAS SSD 基 本 上 应 用 于 企业 级 SSD， 其 借助 成 熟 的 SAS 协 议和 软件 
生态 ， 过 去 十 年 在 企业 级 存储 上 大 量 应 用 。 从 HDD 转 换 到 SSD， 虽 然 
介质 变 了 ， 但 接口 依然 保留 ， 原 因 是 SAS 在 企业 级 应 用 已 经 普及 ， 所 以 
在 传统 的 企业 级 存储 阵列 上 ， 主 要 出 货 量 还 是 SAS， 形 态 为 2.5 寸 。 


mSATA 是 前 些 年 出 现 的 ， 与 标准 SATA 相 比 体积 大 为 缩小 ， 主 要 应 
用 于 消费 级 笔记 本 领域 。 但 生 M.2 出 现 后 ， 基 本 上 兰 代 了 mSATA, $T 
ERIR ° 


M.2 原 名 是 NGFF (Next Generation Form Factor) ， 它 是 为 超 极 本 
(Ultrabook) 量 身 定做 的 新 一 代 接 口 标准 ， 主 要 用 来 取代 mSATA 接 
口 ， 具 备 体 积 小 巧 、 性 能 主流 等 特点 。 


U.2Form Factor (SFF-8639) 起 步 于 PCIe SSD 2.55] ÈE dS Bl AE HJ 
接口 ， 到 后 来 统一 了 SATA、SAS 和 PCIe 三 种 物理 接口 ， 从 而 减 小 了 下 
游 SSD 应 用 场合 的 接口 复杂 度 ， 是 一 种 新 型 连接 器 Form Factor， 目 前 标 
准 还 在 更 新 中 。 


1.6.1 2.5 寸 


2.5 寸 是 主流 企业 级 SSD 的 尺寸 ， 这 类 SSD 包 括 SATA、SAS 和 PCfIe 
三 种 不 同 接 口 和 性 能 的 企业 级 SSD，1U 存 储 和 服务 器 机 架 上 可 以 放 入 
20~-30 块 硬盘 ， 专 为 2.5 寸 尺寸 设计 。 消 费 级 SSD， 尺 寸 主流 包括 2.5 寸 
和 更 小 尺寸 的 M.2，2.5 寸 多 应 用 于 桌面 型 PC， 而 轻薄 型 笔记 本 更 多 地 
使 用 M.2 。 

2.5 寸 也 是 HDD 时 代 的 笔记 本 硬盘 的 主流 尺寸 ， 到 了 后 SSD 时 代 ， 
可 以 在 笔记 本 和 桌面 型 PC 上 沿用 ， 但 面 对 消费 者 更 轻薄 、 更 小 人 硬盘 的 
2m HDD 就 无 能 为 力 了 ，SSD 依 然 可 以 往 更 小 尺寸 的 方向 发 


对 于 2. 5 寸 SSD 而 言 ， 由 于 闪存 密度 的 逐年 增 大 ， tEDUP EE TEZ 
入 的 容量 可 以 越 来 越 大 ， 比 如 有 了 3 层 PCB 的 16TB、32TB 容 量 的 SSD， 
这 是 高 密度 SSD 发 展 的 一 种 趋势 。 


表 1-12 SSD 规格 尺寸 


3j 
Wo 


T EE a MK 5. 7. 95. 125, 3?TB SSD (2017 4p) 


162 M2 


如 图 1-32 所 示 ， 首 先 看 看 M.2Form Factor (包括 M.2 普 通 和 BGA 
SSD) 的 三 围 标准 : Type 1216 ` Type 1620 ` Type 1630 ` Type 2024 ` 
Type 2226 ` Type 2228 ` Type 2230 ` Type 2242 ^ Type 2260 ` Type 
2280 ` Type 2828 ` Type 3026 ` Type 3030 ` Type 3042 ` Type 22110, Ñi 
两 个 数字 为 宽度 ， 后 两 个 〈 或 三 个 ) 数字 是 高 度 。 注 意 ，PM971 就 是 
Type 1620， 厚 度 需要 另外 定义 ， 单 面 贴 斤 和 双 面 贴 片 厚度 大 小 不 同 。 
对 于 对 厚度 有 要 求 的 ， 比 如 平板 电脑 ， 一 般 采 用 单 面 贴 斤 。 


实际 上 四 个 (或 五 个 ) 数字 并 不 能 完整 定义 M.2SSD Form Factor, 
PCI-SIG 定 义 了 更 完整 的 命名 规则 ， 包 括 宽 、 高 、 厚 度 信 息 和 接口 定 
义 。 如 D2 对 应 双 面 ， 单 面 厚度 是 1.35mm; B-M 是 M.2connector key 
ID， 表 示 同 时 支持 PCIe x2、x4 和 SATA 接 口 ， 等 等 。 其 他 参数 定义 参考 
图 1-33， 图 中 明确 定义 了 宽 、 高 、 厚 尺寸 和 接口 总 线形 式 ， 甚 至 可 以 支 
持 USB/SD 卡 接口 ， 同 时 又 保留 了 一 些 总 线 接口 。 总 之 M.2 只 是 规范 了 
一 种 引 脚 物 理 形 式 ， 它 上 面 走 什么 协议 和 总 线 ， 要 看 具体 的 产品 。 


这 里 需要 解释 一 下 B 和 M key， 这 是 两 种 主流 的 M.2key 定 义 ，B 也 
叫 Socket2，M 叫 Socket3，B+M 表 示 同 时 支持 Socket2 和 Scoket3。B 和 M 
的 区 别 在 于 : M 多 了 PCIe x4， 可 以 支持 4 个 通道 ， 接 口 带 宽 最 高 可 以 到 
4GB4， 实 际 上 Top 和 Bottom 两 面 都 有 接口 金 手 指 ， 引 脚 数 翻 倍 ;B 仅 文 
持 SATA/PCIe x2， 接 口 带 宽 最 高 可 以 到 2GB/s， 仅 文 持 Top 面 金 手指 引 
脚 。M/Socket3 无 论 在 消费 级 还 是 企业 级 都 是 未 来 主流 形式 。 
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图 1-33”M.2 的 命名 规则 


1.6.3 BGA SSD 


1.BGA SSD 的 出 现 


半导体 的 发 展 规律 是 从 单个 分 立 元 件 到 高 度 集成 化 。 想 象 一 下 ， 
过 去 的 单个 HDD， 从 只 能 存储 儿 十 MB 的 庞然大物 发 展 到 现在 一 个 能 装 
下 几 十 TB 的 2.5 寸 SSD， 这 些 都 是 半导体 技术 进步 、 制 程 进步 和 生产 制 
造 进步 市 来 的 。 


SSD 也 走 在 这 条 规律 的 道路 上 ， 随 着 制程 和 封装 技术 的 成 熟 ， 当 今 
一 个 PCB 2.5 寸 大 小 的 存储 妖 可 以 放 到 一 个 16mmx20mm BGA 封装 中 ， 
这 就 是 BGA uSSD， 如 图 1-34 所 示 。 


早 在 几 年 前 ，Intel 和 几 家 公司 就 在 讨论 在 消费 级 平板 或 笔记 本 市 场 
推出 M.2BGA SSD 及 其 标准 ， 如 比较 传统 的 M.22260/2280/22110SSD， 
它 有 几 点 技术 优势 : 


-节省 了 15% 以 上 的 平台 空间 ; 
.增加 了 10% 的 电池 寿命 ; 
E T 0.5mm-^-1.5mm SSD 本 身 的 高 度 ; 


:具有 更 好 的 散热 性 (由 于 是 BGA 封装 ， 热 可 以 由 ball pin 传 导 到 
PCB 板 散 出 ) 。 


实际 上 那 时 候 标 准 规范 滞后 ，SSD 也 才刚 刚 兴 起 ，BGA 封 装 技术 
还 不 成 熟 并 且 还 缺乏 消费 级 平台 主板 的 支持 ， 故 并 没有 在 消费 级 笔记 
本 和 平板 上 看 到 BGA M.2 的 产品 ， 在 工业 级 和 其 他 小 细 分 市 场 倒是 有 
少量 的 BGA SSD 在 售 。2016 年 PM971 被 三 星 投 放 到 市 场 ， 从 而 拉 开 了 
BGA SSD 在 消费 级 平板 类 产品 普及 的 大 幕 ， 预 测 各 大 厂商 随后 会 推出 
相应 的 竞 咒 ， 让 我 们 拭目以待 。 当 然 了 ， 在 BGA SSD 普 及 的 过 程 中 ， 
关键 还 是 要 看 价格 ， 只 要 OFEM 价 格 到 位 ， 普 及 不 是 问题 。 


Battery Battery 
214 x 99 x 4mm 214 x 108 x 4mm 
33.4 WHr 37.0 WHr 


NAND SSD m_.2 NAND BGA 
Card 22 x 60mm 16 x 20mm 

Intel 内 部 对 m.2 SSD BGA SSD 
图 1-34 传统 M.2SSD 与 BGA SSD 空 间 占 用 对 比 


BGA uSSD 引 脚 纳入 M.2 标 准 ， 包 括 Type 1620、Type 2024 ` Type 
2228 ` Type 2828， 主 流 的 是 Type 1620 ° 


2. 江 波 龙 P900PCIe BGA SSD 


2017 年 7 月 14 日 ， 国 内 存储 行业 的 领跑 者 深圳 市 江波 龙 电 子 有 限 公 
司 (Longsys) 率先 发 布 目 前 世界 上 最 小 尺寸 的 NVMe PCIe SSD 
(11.5mmx13mm) ， 主 要 是 面向 区 入 式 存储 应 用 ， 包 括 二 合 一 电脑 、 
超 薄 笔记 本 、VR 虚 拟 现实 、 智 能 汽车 等 。 新 推出 的 FORESEEPCIee 
BGA SSD， 以 P900 命 名 ， 如 图 1-35 所 示 。 该 产品 在 2017 年 8 月 8 日 硅谷 
的 FMS (全 球 闪 存 峰会 ) 2017 及 9 月 6 日 深圳 洲际 酒店 CFM (中 国 闪存 
市 场 峰会 ) 2017 亮 相 。 


2016 年 ，Flash 原 厂 相继 发 布 了 16mmx20mm 的 PCIe BGA SSD 产 
品 。 而 江波 龙 此 次 发 布 的 P900 系 列 ， 设 计 尺 寸 仅 为 11.5mmx13mm (Jl 
图 1-36) ， 是 目前 (2017 年 ) 世界 上 最 小 尺寸 的 SSD， 其 与 手机 中 的 
eMMC 及 UEFS 的 尺寸 一 样 大 小 ， 但 是 容量 要 大 得 多 。 
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图 1-36 ”江波 龙 Longsys 新 品 : FORESEE? NVMe PCIe BGA SSD 
(11.5mm*13mm) 


而 在 容量 方面 ，P900 系 列 可 提供 512GB、256GB、128GB 以 及 
60GB 等 多 种 选择 。 江 波 龙 计划 在 2017.Q4 向 客户 提供 样品 ，2018.Q1 量 


P^. FEHERHE o 


P900 E FEPCIe Gen3.0x2 接 口 与 NVMel.3 协 议 ， 且 主 控 配 备 带 硬件 
加 速 器 的 嵌入 式 SRAM。 江 波 龙 自己 开发 固件 用 于 优化 IOPS 性 能 ， 使 
用 LDPC 支 持 3D NAND Flash， 可 实现 TLC 存 储 器 驱动 器 的 高 耐用 性 。 

P900 可 以 支持 微软 HMB | (Host Memory Buffer) 功能 ， 有 了 这 一 功 
能 ，SSD 不 再 需要 额外 搭配 DRAM， 只 需要 借助 系统 内 存 就 能 达到 高 性 
能 的 要 求 ， 同 时 成 本 和 功 耗 更 低 。 

另外 ，P900 系 列 可 以 支持 Boot Partition 的 功能 ， 相 当 于 把 
BIOS/UEFI 系 统 整合 到 SSD 里 面 。 主 机 不 再 需要 额外 用 SPI Flash 作 为 系 
统 引 导 ， 这 样 可 降低 这 些 设 备 的 成 本 。 

而 在 NAND Flash 部 分 ，P900 采 用 最 新 制程 的 64 层 3D TLC， 相 比 于 
2D TLC，64 层 3D TLC 拥 有 更 高 的 存储 密度 、 更 低 的 成 本 、 更 好 的 耐久 
性 和 更 高 的 性 能 ( 见 图 1-37) ° 
A longsys 
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图 1-37 2D 和 3D 闪 存 对 比 


“将 闪存 应 用 到 极致 "是 江波 龙 的 工作 目标 。 作 为 存储 行业 的 创新 
者 ， 江 波 龙 基于 3D NAND Flash 会 不 断 创新 、 厚 积 薄 发 。 江 波 龙 在 存储 


行业 已 耕耘 了 近 20 年 ， 一 直 在 努力 开发 新 技术 、 痢 产品 、 新 存储 商业 
模式 ， 这 也 体现 了 做 中 国 存储 的 风格 。 


1.6.4 SDP 


2016 年 8 月 25 日 ， 国 内 存储 行业 领军 企业 深圳 市 江波 龙 电 子 有 限 公 
司 开 创 性 地 推出 了 SSD 的 一 体 化 模块 产品 SDPIM ( 见 图 1-38) ， 从 
而 为 消费 类 SSD 的 零售 渠道 市 场 及 商业 模式 带 来 草 命 性 的 改变 。 


SDPTM 就 是 SATA Disk in Package， 是 指 将 SSD 主 控 忌 片 、 闪 存 忌 
片 在 封装 三 封装 成 一 体 化 模块 ， 经 过 开 卡 量 产 、 测 斌 后 出 三。 这 种 产 
相当 于 SSD 的 半成品 ， 只 需要 加 上 外 壳 承 能 成 为 完整 的 SSD 产 

。SDPIM 具有 尺寸 小 、 功 耗 低 、 质 量 轻 等 亮点 ， 其 尺寸 大 小 仅 为 
33.4x17.2x123mm ( 见 图 1-39) ， 功 耗 低 至 1430mW， 质 量 仅 为 1.9g。 
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图 1-38 江波 龙 展 出 SDPTM 量 产 样品 


图 1-39 江波 龙 SDPTM 产 品 与 标准 SD 卡 对 比 


_ 与 传统 PCBA 模 式 相 比 ，SDPTM 具备 哪些 优势 ? 具体 如 图 1-40 所 
ZN e 


SDP'"5PCBARBSXJEE 


高 好 非常 适合 轻松 
中 低 差 不 适合 。 复杂 难处 理 


图 1-40 ”江波 龙 SDPTM 与 传统 PCBA 的 对 比 


由 于 采用 了 模块 化 的 制造 方式 ， 相 对 于 传统 的 PCBA 制 造 方式 ， 
SDPIM 产品 可 以 将 SSD 成 品 生产 时 间 从 以 前 的 15 天 缩短 到 1 天 。 产 能 从 
15K/ 天 扩大 到 100K/ 天 ， 同 时 具有 更 稳定 的 品质 以 及 更 短 的 交 货 时 间 等 
优点 。 


16.5 U2 


U.2 俗 称 SFF-8639， 这 是 新 生产 物 ， 采 用 非 AIC 形 式 ， 以 盘 的 形态 
存在 。 开 发 U.2 的 目的 是 统一 SAS、SATA、PCIe 三 种 接口 ， 方 便 用 户 
部 署 。 其 标准 至 本 书 完 稿 时 还 在 不 断 更 新 和 补充 中 。 不 可 否认 的 是 ， 
在 PCIe 取 代 SATA 甚 至 SAS 的 未 来 ，U.2 连 接 器 和 Form Factor 会 成 为 企 
业 级 SSD 盘 存在 的 主要 形态 ，PCIe 接 口 成 为 主要 接口 。 
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1.71 SSD 正 在 取代 HDD 


从 2000 年 年 初 SSD 和 雏形 诞生 ， 到 几 大 闪存 原矿 布局 SSD 产 品 ，SSD 
经 历 了 用 户 对 闪存 和 数据 可 靠 性 的 质疑 ， 到 实际 产品 的 试 水 、 铺 开 ， 
一 直到 2015 年 才 掀 起 SSD 替 换 HDD 的 浪潮 。 到 2017 年 ， 消 费 级 SSD 市 场 
中 SSD 的 装机 率 已 到 30%~40%， 预 测 在 2018 年 ，SSD 装 机 率 将 超过 
50%， 如 图 1-41 所 示 。 
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SSD 市 场 装机 率 
2014 2015 2016 2017 2018 
4% 7% 9% 10% 17% 
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图 1-41 SSD 装 机率 


市 场 的 数据 一 方面 表达 SSD 的 普及 率 ， 更 重要 的 是 表达 了 未 来 SSD 
的 成 长 性 。 不 可 否认 的 是 ，SSD 已 经 有 主导 存储 设备 市 场 的 趋势 ， 完 全 
或 大 部 分 苦 代 HDD 成 为 主流 存储 器 只 是 时 间 问 题 。 所 以 对 于 希捷 和 西 
数 HDDJ 商 而 言 ，HDD 销 量 下 滑 、 拥 抱 SSD 是 可 以 预见 的 必然 趋势 。 


在 性 能 、 可 靠 性 、 功 耗 等 方面 完 爆 HDD 的 SSD， 未 来 装机 率 和 普 
及 率 (Market Share) 的 快慢 主要 取决 于 SSD 的 价格 ， 更 核心 的 是 内 存 
单位 GB 价格 的 变化 ， 图 1-42 所 示 是 SSD 与 HDD 相 比价 格 的 趋势 预测 。 


至 本 书 截 稿 时 ，128GB SSD 的 价格 和 1TB HDD 的 价格 基本 相当 ， 
但 每 GB 的 SSD 与 HDD 相 比 仍然 有 8 倍 的 差距 。 按 照 摩尔 定律 推算 ， 闪 
存 密度 在 快速 增 大 ， 这 给 每 GB 闪存 的 价格 下 降 提 供 了 绝 佳 的 通道 ， 
SSD 价 格 和 成 本 问题 得 到 解决 后 ， 其 前 途 一 片 光 明 。 


SSD/HDD 价格 趋势 
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图 1-42 SSD 与 HDD 的 价格 对 比 


1.7.2 SSD、HDD 应 用 场合 


数据 按照 热度 的 不 同 会 采取 不 同 的 存储 方式 ， 这 样 可 以 平衡 性 能 
和 成 本 的 问题 ， 俗 称 性 价 比 。 在 HDD 和 SSD 二 分 天 下 的 今天 ，SSD 主 
要 用 于 存放 和 用 户 贴 近 的 热 数 据 ， 其 对 总 容量 需求 较 小 ， 性 能 优先 ; 
HDD 主 要 用 于 存放 和 用 户 较 远 的 温 (warm) 数据 或 冷 (cold) 数据 ， 
其 对 总 容量 需求 较 大 ， 价 格 优先 。 这 是 一 种 设计 的 平衡 。 具 体 来 讲 : 

:数据 加 速 层 ， 采 用 PCIe 接 口 的 高 性 能 的 SSD。 

. 热 数据 (频繁 访问 ) E: 采用 普通 SATA、SAS SSD ° 

. 温 数 据 层 : 采用 高 性 能 HDD ° 

. 冷 数 据 层 : 采用 HDD ° 

.归档 层 : 采用 大 容量 价格 低廉 的 HDD， 甚 至 磁带 。 


1.7.3 SSD 市 场 情 况 


从 2016 年 Trend Focus 的 SSD 市 场 占 有 率 调 研 来 看 ， 总 体 来 说 三 星 
(Samsung) 领跑 整个 市 场 ， 占 据 SSD 市 场 的 半壁 江山 如 图 1-43 所 示 。 
三 星 在 主 探 、 介 质 技术 和 市 场 方 面 占 有 主导 优势 ， 尤 其 是 其 介质 ， 领 
先 竞 争 对 手 1 一 2 年 的 优势 。 在 可 预见 的 未 来 ， 闪 存 原 厂 会 主导 SSD 市 
场 ， 尤 其 是 成 本 和 售 价 竞争 激烈 的 消费 级 SSD 市 场 。 原 因 是 SSD 90% 以 
上 的 成 本 取决 于 闪存， 闪存 广 商 对 闪存 的 成 本 和 供应 有 目 主 权 。 


当然 ， 非 内 存 原矿 在 SSD 领 域 也 有 不 少 成 功 的 玩家 ， 像 Lite-ON、 
Kingston， 凭 借 过 往 在 闪存 、 内 存 模 组 产品 的 销售 渠道 ， 切 入 消费 级 
SSD 市 场 ， 占 据 5% 一 10% 的 市 场 份额 ， 在 SSD 成 长 过 程 中 分 得 一 杯 北 。 


SSD 的 研发 模式 ， 三 方 配合 : 主 探矿 商 + 内 存 厂商 + 生产 制造 。 对 
于 闪存 大 广 而 言 ， 有 目 己 的 主 控 和 闪存 颗 粒 ， 研 发 的 核心 部 分 掌握 在 
目 己 手中 。 对 于 没有 主 控 和 闪存 颗粒 的 SSDJ AMA, EmA RÉ 
优势 ， 通 过 引入 第 三 方 主 控 厂 商 (包括 Turnkey FW) 和 自己 购买 内 
存 ， 若 成 本 控制 得 当 ，SSD 的 生产 和 销售 体系 也 能 建立 起 来 ， 做 得 比较 
成 功 的 有 Lite-ON、Kingston。 忆 之 SSD 的 市 场 是 内 存 原 厂 、 主 控 三 
Hi^ SSDIEJH TH Er — 7] Z5 SR T2] o 
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第 2 章 ”SSD 主 控 和 全 闪存 阵列 


如 前 所 述 ，SSD 主 要 由 两 大 模块 构成 一 一 主 控 和 闪存 介质 。 其 实 
除了 上 述 两 大 模块 外 ， 可 选 的 还 有 缓存 单元 。 主 控 是 SSD 的 大 脑 ， 承 
担 着 指挥 、 运 算 和 协调 的 作用 ， 有 具体 表现 在 : 一 是 实现 标准 主机 接口 
与 主机 通信 ; 二 是 实现 与 内 存 的 通信 ; 三 是 运行 SSD 内 部 FTL 算 法 。 
可 以 说 ， 一 款 主 控 忆 片 的 好 坏 直 接 决 定 了 SSD 的 性 能 、 寿 命 和 可 靠 
性 。 本 章 将 聚焦 SSD 主 控 。 


21 SSD 系 统 架 构 


SSD 作 为 数据 存储 设备 ， 其 实 是 一 种 典型 的 (System on Chip) 单 
机 系统 ， 有 主 控 CPU、RAM、 操 作 加 速 器 、 上 总线、 数据 编码 译 码 等 模 
块 ( 见 图 2-1) ， 操 作对 象 为 协议 、 数 据 命令 、 人 介质， 操作 目的 是 写 入 
和 读 取 用 户 数 据 。 


图 2-1 SSD 主 控 模 块 硬 件 图 


图 2-1 所 示 仅 是 一 个 SSD 系 统 架 构 的 概略 图 ， 这 款 主 探 采 用 ARM 

CPU， 主 要 分 为 前 端 和 后 端 两 大 部 分 。 前 端 (Host Interface 
Controller， 主 机 接口 控制 右 ) 跟 主 机 打交道 ， 接 口 可 以 是 SATA、 
PCIe、SAS 等 。 后 端 (Flash Controller， 闪 存 控制 器 ) 跟 闪 存 打交道 并 
完成 数据 编 解 码 和 ECC。 除 此 之 外 还 有 缓冲 (Buffer) ` DRAM ° ER 
之 间 通 过 AXI 高 速 和 APB 低 速 总 线 互 联 互 通 ， 完 成 信息 和 数据 的 通信 。 
在 此 基础 之 上， 由 SSD 固 件 开发 者 构筑 固件 (Firmware) 统一 完成 SSD 
D E 调度 各 个 便 件 模块 ， 完 成 数据 从 主机 端 到 闪存 端 

JE AFTE ° 


2.1.1 前 端 


主机 接口 : 与 主机 进行 通信 (数据 交互 ) 的 标准 协议 接口 ， 当 前 
主要 代表 为 SATA、SAS 和 PCIe 等 。 表 2-1 所 示 是 三 者 的 接口 速率 。 


表 2-1 SATA、SAS、PCIe 接 口 速率 


接口 速率 (Gbps) 
SATA 6/3/1.5 

SAS 12/6 

PCIe 通道 数 x 8 (PCIe3.0) 


SATA 的 全 称 是 Serial Advanced Technology Attachment. (上 串 行 高 级 
技术 附件 ) ， 是 一 种 基于 行业 标准 的 串 行 硬件 驱动 器 接口 ， 是 由 Intel、 
IBM、Dell、APT、Maxtor 和 Seagate 公 司 共同 提出 的 硬盘 接口 规范 ( 见 
图 2-2) »20014££, Hintel ^ APT ^ Dell ^ IBM 、 希 捷 、 迈 拓 这 几 大 厂商 
组 成 的 SATA 委 员 会 正式 确立 了 SATA 1.09018, ° 


图 2-2 SATA 接口 


SAS (Serial Attached SCSI) 即 串 行 连接 SCSI， 是 新 一 代 的 SCSI 技 
术 ， 和 现在 流行 的 Serial ATA (SATA) 硬盘 相同 ， 都 是 采用 串 行 技术 以 


获得 更 高 的 传输 速度 ， 并 通过 缩短 连接 线 改善 内 部 空间 等 ( 见 图 2- 

3) 。SAS 是 并 行 SCSI 接 口 之 后 开发 出 的 全 新 接口 ， 此 接口 的 设计 是 为 
了 改善 存储 系统 的 效能 、 可 用 性 和 扩充 性 ， 并 且 提 供与 SATA 硬 盘 的 兼 
容 性 。SAS 的 接口 技术 可 以 同 下 兼容 SATA。 具 体 来 说 ， 二 者 的 兼容 性 
主要 体现 在 物理 层 和 协议 层 。 在 物理 层 ，SAS 接 口 和 SATA 接 口 完 全 兼 
容 ，SATA 硬 盘 可 以 直接 用 在 SAS 的 环境 中 ;， 从 接口 标准 上 而 言 ，SAITA 
是 SAS 的 一 个 子 标准 ， 因 此 SAS 控 制 器 可 以 直接 操控 SATA 人 硬盘 ， 但 是 
SAS 却 不 能 直接 用 在 SATA 的 环境 中 ， 因 为 SATA 控 制 絮 并 不 能 对 SAS 便 
盘 进 行 控 制 。 在 协议 屋 ，SAS 由 3 种 类 型 的 协议 组 成 ， 根 据 连接 设备 的 
不 同 使 用 相应 的 协议 进行 数据 传输 。 其 中 串 行 SCSI 协 议 (SSP) 用 于 传 
输 SCSI 命 令 ，SCSI 管 理 协议 (SMP) 用 于 对 连接 设备 的 维护 和 管理 ; 
SATA 通 道 协议 (STP) 用 于 SAS 和 SATA 之 间 数 据 的 传输 。 因 此 在 这 3 
种 协议 的 配合 下 ，SAS 可 以 和 SATA 以 及 部 分 SCSI 设 备 无 颖 结合 。 


图 2-3 ”SAS 接口 


PCIe (Peripheral Component Interconnect Express) 是 一 种 高 速 串 行 
计算 机 扩展 总 线 标准 ， 它 原来 的 名 称 为 3GIO， 是 由 英特尔 在 2001 年 提 
出 的 ， 旨 在 蔡 代 旧 的 PCI、PCI-X 和 AGP 总 线 标准 。PCIe 属 于 高 速 串 行 
点 对 点 多 通道 高 带宽 传输 ， 所 连接 的 设备 分 配 独 享 通 道 带宽 ， 不 共享 
总 线 带 宽 ， 主 要 文 持 主动 电 源 管理 、 错 误 报 告 、 端 对 端的 可 靠 性 传 


输 、 热 插 拔 以 及 服务 质量 (QoS, Quality of Service) 等 功能 。 它 的 主 
要 优势 就 是 数据 传输 速率 高 ， 目 前 最 高 的 4.0 版 本 可 达到 2GB/s ( 单 向 单 
通道 速率 ) ， 而 且 还 有 相当 大 的 发 展 潜力 。PCI Express 也 有 多 种 规 

格 ， 从 PCI Express 1X 到 PCI Express 32X， 意 思 就 是 1 个 通道 到 32 个 通 
道 ， 能 满足 将 来 一 段 时 间 内 出 现 的 低速 设备 和 高 速 设备 的 需求 。PCI- 
Express 最 新 的 接口 是 PCIe 4.0 接 口 。 


图 2-4 和 图 2-5 展 示 的 是 PCIe 接 口 ， 分 别 为 卡 式 和 U.2 。 


图 2-4 ” PCIe 接口 式 插 卡 (AIC) 


图 2-5 ”U.2 接 口 


前 端 是 负责 主机 和 SSD 设 备 通信 的 接口 ， 命 信和 数据 传输 通过 前 端 
总 线 流向 或 流出 SSD 设 备 。 


从 硬件 模块 上 来 看 ， 前 端 有 SATA/SAS/PCIe PHY 层 ， 俗 称 物理 
妈 ， 接 收 串 行 比特 数据 流 ， 转 化 成 数字 信号 给 前 端 后 续 模 块 处 理 。 这 
模块 处 理 NVMe/SATA/SAS 命 令 ， 它 们 接收 并 处理 一 条 条 命令 和 数据 
息 ， 涉 及 数据 搬移 会 使 用 到 DMA。 一 般 命 令 信息 会 排队 放 到 队列 
， 数 据 会 放 到 SRAM 快 速 介 质 中 。 如 果 涉 及 加 密 和 压缩 功能 ， 前 端 会 
相应 的 硬件 模块 来 做 处 理 ， 若 软件 无 法 应 对 压缩 和 加 密 的 快速 需 
求 ， 则 会 成 为 性 能 的 瓶颈 。 


从 协议 角度 ， 以 一 条 SATA Write FPDMA 命 令 为 例 对 上 述 内 容 进 行 
说 明 。 从 主机 端 文件 系统 发 出 一 条 写 命令 请 求 ， 该 请 求 到 主板 南 桥 
AHCI 寄 存 器 后 ，AHCI 寄 存 器 执行 请 求 ， 即 进行 写 操作 ， 和 忽略 文件 系 
统 到 AHCI 路 径 的 操作 细节 ， 从 SSD 前 端 总 线 上 看 会 发 出 如 下 的 写 交 互 
操作 ( 见 图 2-6) : 


5E ani -E uir [E Ni 


Write FPDMA 


DMA Setup 


SK Data 
a 


DMA Setup 


Status SDB 


图 2-6 SAT A Write FPDMA 命 令 协 议 处 理 步 又 


步骤 1: 主机 在 总 线 上 发 出 Write FPDMA 命 令 FIS (Frame 
Information Structure， 帆 信息 结构 ， 是 SATA 为 了 实现 异步 传输 数据 块 
而 使 用 的 封包 ) 。 


步骤 2: SSD 收 到 命令 后 ， 判 断 自 己 内 部 写 缓存 (Write Buffer) 是 
否 有 空间 去 接收 新 的 数据 。 如 果 有 ， 则 发 出 DMA Setup FIS 到 主机 端 ; 
J 主机 端 处 于 等 每 状态 OAM: 数据 流量 挥 

| o 

步骤 3: 主机 端 收 到 DMA Setup FIS 后 ， 发 送 不 大 于 8KB 数 据 的 Data 
FIS 给 设备 。 

步骤 4: 重复 步骤 2 和 步骤 3 直到 数据 全 部 发 送 完毕 。 

步骤 5: 设备 (SSD) 发 送 一 个 状态 Status FIS 给 主机 ， 表 示 从 协议 
层面 这 条 写 命令 完成 全 部 操作 。 当 然 Status 可 以 是 一 个 good status 或 者 


一 个 bad/error status， 表 示 这 条 Write FPDMA fij O HNE E 1 Bv E TÉ C 
成 o 


SSD 接 收 命令 和 数据 并 放 到 SSD 内 部 绥 冲 区 之 后 还 需要 做 些 什 么 
呢 ? 任务 还 没完 成 ， 前 端 固件 模块 还 需要 对 命令 进行 解析 ， 并 分 派 任 
务 给 中 端 FTL。 命 令 解析 (Command Decoder) 将 命令 FIS 解 析 成 固件 
和 FTL (Flash Translation Layer) 能 理解 的 元 素 : 


这 是 一 条 什么 命令 ， 命 令 属性 是 读 还 是 写 (注意 ， 本 


Ex 
eu 
JI 
E 


d 


-这 条 写 命令 的 起 始 LBA 和 数据 长 度 ; 


这 条 写 命令 的 其 他 属性 ， 如 是 否 是 FUA 命 令 ， 和 前 一 条 命令 LBA 
是 否 连 续 (是 连续 命令 还 是 随机 命令 ) 
Æ 


当 命令 解析 完成 后 ， 放 入 命令 队列 里 等 待 中 端 FTL 排 队 去 处 理 。 由 
于 已 经 有 了 起 始 LBA 和 数据 长 度 两 大 主要 信息 元 素 ，FTL 可 以 准确 地 了 映 
射 LBA 空 间 到 闪存 的 物理 空间 。 至 此 ， 前 端 硬 件 和 固件 模块 完成 了 它 
应 该 完成 的 任务 。 


2.1.2. 主 控 CPU 


SSD 控 制 器 SoC 模 块 和 其 他 舱 入 式 系统 SoC 模 块 并 没有 什么 本 质 的 
不 同 ， 一般 由 一 颗 或 多 颗 CPU 核 组 成 ， 同 时 片上 有 I-RAM 、D-RAM 、 
PLL ` IO ` UART ` 高 低速 总 线 等 外 围 电路 模块 。CPU 负 责 运算 、 系 统 
调度 ，IO 完 成 必要 的 输入 输出 ， 总 线 连接 前 后 端 模 块 。 


通常 我 们 所 说 的 固件 就 运行 在 CPU 核 上 ， 分 别 有 代 码 存储 区 工 
RAM 和 数据 存储 区 D-RAM。 如果 是 多 核 CPU， 需 要 注意 的 是 软件 可 
以 是 对 称 多 处 理 (SMP) 和 非 对 称 多 处 理 (AMP) 。 对 称 多 处 理 多 核 
共享 0S 和 同一 份 执行 代码 ， 非 对 称 多 处 理 是 多 核 分 别 执行 不 同 代码 。 
前 者 多 核 共 享 一 份 LRAM 和 D-RAM， 资 源 共 享 ， 后 者 每 核对 应 一 份 I- 
RAM 和 D-RAM， 每 核 独立 运行 ， 没 有 内 存 抢占 导致 代码 速度 执行 变 
慢 的 问题 。 当 SSD 的 CPU 要 求 计算 能 力 更 高 时 ， 除 增加 核 数 和 单 核 
CPU 频 率 外 ，AMP 的 设计 方式 更 加 适应 计算 和 任务 独立 的 要 求 ， 消 除 
了 代码 和 数据 资源 抢占 导致 执行 速度 过 慢 的 问题 。 


固件 根据 CPU 的 核 数 进行 设计 ， 充 分 发 挥 多 核 CPU 的 计算 能 力 是 
固件 设计 考虑 的 一 方面 。 男 外 ， 固 件 会 考虑 任务 划分 ， 会 将 任务 分 别 
加 载 到 不 同 CPU 上 执行 ， 在 达到 并 行 处 理 的 同时 让 所 有 CPU 有 着 合理 
且 均 衡 的 人 负载， 不 至 于 有 的 CPU 忙 死 有 的 CPU 内 死 ， 这 是 固件 架构 设 
计 要 考虑 的 重要 内 容 ， 目 标 是 让 SSD 输 出 最 大 的 读 写 性 能 。 


SSD 的 CPU 外 围 模块 包括 UART、GPIO、JTAG， 这 些 都 是 程序 必 
不 可 少 的 调试 端口 ， 另 外 还 有 定时 需 模 块 Timer 及 其 他 内 部 模块 ， 比 如 
DMA、 温 度 传 感 妖 、Power regulator 模 块 等 。 


2.1.3. 后 端 


本 节 将 从 SSD 主 控 角 度 来 分 析 一 下 后 端 硬件 模块 。 
后 端 两 大 模块 分 别 为 ECC 模 块 和 闪存 控制 器 ( 见 图 2-7) ° 
SSD 基本 架构 


图 2-7 ”SSD 中 的 ECC 模 块 和 闪存 控制 器 


ECC 模 块 是 数据 编 解码 单元 ， 由 于 内 存 存储 天 生存 在 误 码 率 ， 为 
了 数据 的 正确 性 ， 在 数据 写 入 操作 时 应 给 原 数 据 加 入 ECC 校 验 保护 ， 
这 是 一 个 编码 过 程 。 读 取 数 据 时 ， 同 样 需要 通过 解码 来 检 错 和 纠 错 ， 
如 果 错 误 的 比特 数 超 过 ECC 纠 错 能 力 ， 数 据 会 以 “不 可 纠 错 ” 的 形式 上 传 
给 主机 。 这 里 的 ECC 编 码 和 解码 的 过 程 就 是 由 ECC 模 块 单元 来 完成 
的 。SSD 内 的 ECC 算 法 主要 有 BCH 和 LDPC， 其 中 LDPC 正 逐渐 成 为 主 


流 。 


内 存 控制 器 使 用 符合 内 存 ONFI、Toggle 标 准 的 内 存 命令 ， 负 责 管 
理 数据 从 绥 存 到 内 存 的 读 取 和 写 入 。 


内 存 控 制 妖 如 何 和 内 存 连接 和 通信 ? 从 单个 内 存 角度 看 ， 一 个 
DieILUN 是 一 个 内 存 命令 执行 的 基本 单元 ， 内 存 控制 右 和 内 存 连 接 引 脚 
按照 如 下 操作 ( 见 图 2-8) : 


NV-DDR2 
Asyne NV-DDR NV-DDR3 ENi 
CE# “CE# CE# "EET 
CLE CLE CLE 
ALE ALE ALE R/B£ 
WE# CLK WE# 
RE# “WR# RE# 
DQ[7:0] DQ[7:0] DQ[7:0] 
NA DQS  DQS 
WP# “WP# WP# 
ENo 


图 2-8 内 存心 片 接口 


:外 部 接口 : 8 个 IO 接口 ，5 个 使 能 信号 (ALE、CLE、WE#、 
RE#、CE#) ，1 个 状态 引 脚 (RB#) ，1 个 写 保 护 引 脚 (WP#) ; 


命令、 地 址 、 数 据 都 通过 8 个 IO 接口 输入 输出 ; 


. 写 入 命令 、 地 址 、 数 据 时 ， 都 需要 将 WE#、CE# 信 号 同时 拉 低 ， 
数据 在 WE# 上 升 沿 被 锁 存 ; 


.CLE、ALE 用 来 区 分 I0 引 脚 上 传输 的 是 数据 还 是 地 址 。 


从 闪存 控制 器 角度 看 ， 为 了 性 能 需求 需要 并 发 多 个 内存 Die/LUN ， 
通常 配置 有 多 个 通道 (channel) 。 一 个 通道 挂 多 少 个 闪存 Die@/LUN， 
取决 于 SSD 容 量 和 性 能 需求 ，Die/LUN 个 数 越 多 ， 并 发 的 个 数 越 多 ， 性 
能 越 好 。 


DieILUN 是 闪存 通信 的 最 小 基本 管理 单元 ， 配 有 上 述 的 一 套 总 线 ， 
即 8 个 IO 口 ，5 个 使 能 信号 (ALE^ CLE ` WE£^ RE# ` CEZ) ，1 个 状 
态 引 脚 (R/B#) ，1 个 写 保护 引 脚 (WP#) ...... 


如 果 一 个 通道 上 挂 了 多 个 内 存 Die/LUN， 每 个 Die 共 用 每 个 通道 上 
的 一 套 总 线 ， 那 闪存 控制 器 如 何 识别 和 哪个 Die 通 信 呢 ? 答案 是 通过 选 
通信 号 CE# 实 现 。 在 闪存 控制 器 给 特定 地 址 的 闪存 Die 发 读 写 命令 和 数 
据 前 ， 先 选 通 对 应 Die 的 CE# 信 号 ， 然 后 进行 读 写 命令 和 数据 的 发 送 。 
一 个 通道 上 可 以 有 多 个 CE，SSD 主 控 一 般 设 计 为 4~8 个 ， 对 于 容量 
言 选择 有 一 定 的 灵活 度 。 


22 SSD 主 探 厂 商 


SSD 主 探 是 一 个 技术 深度 和 市 场 广度 都 很 大 的 必 片 产品 。SSD 人 发 
展 初 期 主 控 必 片 玩 家 较 少 ， 原 因 是 设计 和 生产 一 款 新 的 必 片 的 要 求 和 
| TAR ^ RIA EISSDEDESUAE. MEWE HATTAR 
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下 面 介绍 一 下 Marvell 主 控 、 二 星 主 控 和 国内 主 挥 的 技术 深度 和 特 
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22.1 ”Marvell 主 控 


Marvell 是 全 球 排名 第 一 的 HDD 和 SSD 主 控 蕊 片 供 应 商 。2007 年 开 
始 在 SSD 控 制 器 领域 进行 布局 ， 于 2008 年 推出 第 一 代 SATA SSD 产 品 
Davinci。 作 为 SSD 主 控 领域 的 老大 ，Marvell 的 SSD 产 品 线 非 常 完善 ， 
s 产品 形态 上 包括 了 SOC、ASIC 及 CSSP， 如 图 2- 
9 所 示 。 


Marvell 目 前 的 主力 产品 包括 主攻 PC 市 场 的 SATA 系 列 Dean 
(88SS1074) ， 主 攻 PC、 数 据 中心 、 云 端 市 场 的 PCIe 系 列 Eldora 
(88SS1093/88SS1092) ， 还 有 针对 入 门 级 零售 市 场 、 享 有 创新 

DRAMless 设 计 的 Artemis 系 列 (88NV1120/88NV1160) ° 


Marvell 公 司 现在 拥有 超过 1400 项 存储 专利 (还 有 大 约 200 项 专利 正 
在 申请 ) 的 强大 知识 产权 组 合 。 和 凭借 在 HDD 领 域 二 十 多 年 的 产品 经 
验 ，Marvell 在 低 功 耗 、 高 性 能 设计 、 封 装 、 移 进 制程 方面 有 了 很 多 的 
积累 。Marvell 的 主 挖 技术 均 领 先 竞 争 对 手 两 到 三 代 ( 见 图 2-10) 。 无 
论 是 2D/3D MLC 还 是 2D/3D TLC， 也 无 论 是 SATA 还 是 PCIe 接 口 形 式 ， 
Marvell 都 颇 有 建树 。 且 Marvell 与 客户 的 关系 好 ， 合 作 伙 伴 包 括 金 士 
顿 、LiteOn、Micron、Toshiba、Seagate、Sandisk、 江 波 龙 、 联 想 等 国 
际 国内 大 三 ， 持 续 引 领 着 行业 技术 的 变革 与 创新 。 


SSD Portfolio Serves Entire Market 


Covering All Market Segments | 


Client Enterprise Data Center 


Flexible Business Model 
Full Turnkey (FTK) JSW Development Kit (SDK 
ASIC 
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图 2-9 Marvell SSD 产 品 线 履 盖 零 售 、 客 户 端 、 企 业 级 及 数据 中 心 市 场 


1* Gen PCIe 2"* Gen PCIe 3* Gen PCIe 4^ Gen PCIe 


gH mg 


2010-2011 2012-2013 2013-2014 2015-2016 
Plato Brighton Alta Eldora 
* Single Dragonite * Dual Dragonite (à 400Mhz * Dual Cortex R4 @ 400Mhz 。 Triple Cortex R5 @ 500 
* PCIe Gen2 x 1 (5Gbps) * PCIe Gen? x 2(10Gbps)  * PCIe Gen2 x 4 (20Gbps) Mhz 
* AHCI * AHCI * AHCI * PCIe Gen3 x 4 (40Gbps) 
* 4CH x ACE * 8CH x 4CE * SCH x 4CE * AHCI/NVMe 
* ONFI2.2/Togglel (2200 * ONFI 3.0/Toggle2(2400 * ONFI 3.0/Toggle2(2400 * SCH x 8CE 
MB/s MB/s MB/s * ONFI 3 2/Toggle2 (à 
* Strong BCH * Strong BCH * BCH 2 level ECC 533MB/s 
* 65nm * 55nm * 40nm LPM * LDPC Gen3 
* 12x 12mm package * 17 x 17mm package * 17x 17mm package * 28nm HPM 
* 17x 17mm package 
1* Gen SATA 2"* Gen SATA 3* Gen SATA 4* Gen SATA 5^ Gen SATA 
ia 
2008 2009-2010 2011-2012 2013-2014 2015-2016 
Davinci Van Gogh Monet Renoir Dean 
* Dual Dragonite @ * Dual Dragonite @ 250Mhz 。 Dual Dragonite @ 400Mhz * Dual Dragonite (à 400 * Dual Dragonite @ 400 
200Mhz * SATA Ill 6Gb/s * SATA Ill 6Gb/s Mhz Mhz 
* SATA |l 3Gb/s * SCH x 4CE * 8CH x ACE * SATA Ill 6Gb/s * SATA Ill 6Gb/s 
* SCH x 4CE * ONFI 2.l/Togglel (2 133 * ONFI 22/Togglel (2 166 * SCHx4CE * 4CH x 8CE 
* ONFI 2.0/Togglel MB/s MB/s * ONFI 3.0/Toggle2 (à 400 * ONFI 3.2/Toggle2 @ 
@ 100MB/s * Strong BCH * BCH2 level ECC MB/s 533MB/s 
* BCH15 * 65nm * 55nm * BCH2 level ECC * LDPC Gen3 
* 90nm * 17x 17mm package * 17 x 17mm package * 55nm * 280m LP 
* 17 x 17mm package * 17x 17mm package * 11 x 13.5mm package 
图 2-10 Marvell 已 推出 五 代 SATA SSD 产 品 以 及 第 四 代 PCIe SSD 主 控 产 
FE 
HH 


Marvell 在 高 端 SoC 设 计 上 处 于 领先 地 位 ，Marvell 通 过 复杂 的 SoC 架 
构 、 领 先 的 纠 错 机 制 、 接 口技 术 、 低 功 耗 等 多 项 优势 建立 起 领先 竞争 
对 手 的 技术 壁 驹 : 


1) Marvell 专 有 的 NANDEdge 技 术 。 这 种 LDPC 〈 低 密度 奇偶 校 
验 ) 纠 错 机 制 是 目前 业界 任何 其 他 功能 所 无 法 比拟 的 技术 ，Marvell 公 
司 所 有 最 新 的 SATA、SAS 和 NVMe 的 SSD 控 制 器 都 采用 了 该 技术 。 
NANDEdge 技 术 适 用 于 传统 平面 型 和 新 兴 3D 堆 县 三 阶 存储 单元 
(TLC) ， 以 及 四 阶 存储 单元 (QLC) NAND SSD， 能 够 确保 实现 最 高 
的 耐用 性 、 可 靠 性 和 数据 完整 性 ， 并 延长 SSD 的 使 用 寿命 。 目 前 
Marvell 的 LDPC 校 验 技 术 已 经 迭代 到 了 第 三 代 。 


2) 可 扩展 、 可 延续 的 开发 架构 。 Marvell Artemis 系 列 主 控 ， 是 全 
球 第 一 个 支持 PCIe NVMe 的 不 需要 DRAM 绥 存 的 SSD 主 控 方案 ， 并 支持 
Host Memory Buffer (HMB) 特性 。 


3) 特性 丰富 的 SDK。 Marvell 为 合作 伙伴 提供 了 完善 的 SDK 开 发 
工具 ， 不 仅 能 加 快 上 市 时 间 ， 还 能 让 合作 伙伴 有 条 件 、 有 精力 将 自己 
于 开发 能 体现 兰 异 化 或 目 映 优势 的 方面 ， 从 而 实现 兰 异 

Ee 


4) 全 产品 线 转向 16nm 工 艺 。Marvell 在 业界 率先 使 用 28nm 工 艺 ， 
而 其 他 不 少 友 商 还 停留 在 40nm 甚 至 55nm。 未 来 Marvell 全 产品 线 将 转向 
16nm 工 艺 ， 产 品 的 尺寸 会 更 小 ， 功 耗 也 将 更 低 。 


Leveraging HDD Competencies in SSD 


Complex SoC Architecture 
Advanced Error Correction Code 
Interface Technologies 
Integrated Designs 
Low-Power Digital Designs 
Security Firmware 
Error Recovery Algorithms 
Packaging and Thermal Design 
Customer Relationships 
Advanced Process Nodes 


>20 Years of Storage Know-how 


图 2-11 Marvell EHDDSIUSUCN ÜCSS IET ZESSSDTSS EIS" m P 


无 论 在 口碑 上 还 是 销量 上 ，Marvell 主 挖 一 直 是 市 场 的 佼佼 者 。 其 
rH, 88SS1074SATA SSD 控 制 絮 在 短 短 18 个 月 内 的 出 货 量 已 超过 5000 
万 ， 年 同比 增长 385%。Artemis 系 列 产品 88NV1140 在 CES 2016 国 际 消 
费 电 子 展 上 亦 获得 了 Visions award。 而 最 新 的 88NV1160DRAM-less 
SSD 控 制 器 则 在 美国 ACE 2017 人 逻辑 /接口 /存储 器 产品 类 别 评选 中 摘 得 大 


222 三星 主 挖 


三 星 的 主 控 基 本 上 都 是 三 星 自 己 的 SSD 在 用 ，830 系 列 使 用 是 MCX 
主 控 ， 而 840 及 840Pro 使 用 的 则 是 MDX 主 控 ，850Pro/840EVO 用 的 是 
MEX 主 控 ，850EVO 500GB 以 下 的 和 750EVO 用 的 是 MGX 主 控 ，650 用 
的 是 MFX 主 控 ， 如 图 2-12 所 示 。 


图 2-12 ZEER 


MCX 是 200MHz 的 三 核 ARM 9 核心 ， 缓 存 容 量 256MB; MDX 的 核 
心 则 换 成 300MHz 的 三 核 Coretex-R4 处 理 器 ， 缓 存 容 量 512MB; MEX 则 
是 把 频率 提升 至 400MHz， 并 且 加 入 了 TurboWrite 技 术 的 支持 ， 缓 存 容 
量 1GB。 至 于 MGX 和 MEFX 主 控 ， 目 前 可 以 知道 的 是 MGX 是 一 个 双核 主 
E 而 且 三 星 优化 了 低 容 量 下 的 随机 性 能 ， 而 MFX 可 能 是 一 颗 4 通 道 主 
^ o 


223 EPER, WEG-UGE 


常见 的 台 系 主 控 包括 吞 微 (JMicron) ` E (Silicon Motion). 和 
群 联 (Phison) 三 家 公司 的 主 控 。 它 们 成 本 低廉 ， 相 当 受 SSD 厂 家 欢 
迎 ， 现 在 有 相当 多 的 SSD 在 用 这 三 家 的 主 探 。 不 过 近年 来 ，JMicron 的 
产品 已 经 渐渐 淡出 市 场 了 ， 这 里 着 重 介绍 慧 荣 和 群 联 两 家 的 主 探 。 


LARE 


ARPHI (SMI) 为 全 球 内 存 控制 芯片 及 专业 射频 IC 的 市 场 先驱 及 
技术 领导 者 ， 慧 宋 从 2000 年 开始 提供 记忆 卡 用 的 内 存 控制 亿 乒 ， 一 路 
走 来 ， 从 CF、SD、USB， 到 进入 手机 用 的 舱 入 式 内 存心 片 MMC/UFS 
及 固态 便 盘 主 探 必 片 ， 在 每 个 领域 都 可 说 是 闪存 主 探 忆 片 的 龙头 三 
a a 


SMI 长 期 与 全 球 主要 闪存 大 三 合作， 无 论 是 Samsung、Toshiba、 
WD/Sandisk、SKhynix、Micron 还 是 Intel，SMI 都 为 其 提供 了 全 面 性 主 
探 芯片 解决 方案 。 借 由 与 内 存 大 厂 的 合作 关系 ，SMI 可 以 在 更 早期 以 主 
探矿 商 的 身份 提供 、 回 馈 给 闪存 三 商 技 术 方 案 ， 可 以 提前 了 解 NAND 
的 发 展 趋势 ， 从 而 及 早 设计 对 应 的 主 控 及 固件 。 近 年 来 ， 英 特 尔 消费 
性 SSD 也 开始 全 面 使 用 SMI 的 主 控 心 片 ， 这 证 明 SMI 的 SSD 主 控 心 厂 质 
量 是 世界 一 流水 平 的 。 近 期 Crucial 所 发 表 的 MX500 即 是 采用 SMI 的 
SM2258H 主 控 芒 片 ， 其 上 搭配 了 Micron 64 层 的 TLC， 证 明 SMI 这 几 年 
SSD 的 领先 技术 已 经 获得 国际 大 广 与 消费 者 的 认同 。 


慧 菏 提供 一 系列 固态 硬盘 主 探 必 片 〈 见 图 2-13) ， 支 持 所 有 主要 内 
存 大 三 的 MLC、TLC 及 SLC 闪存， 其 应 用 范畴 赛 括 个 人 计算 机 、 消 费 
性 电子 品 、 工 业 计 算 机 与 其 他 相关 应 用 ;同时 文 持 最 先进 的 安全 协 
iX; 支持 AES 128/256 ^ TCG Opal Full-Drive 等 加 密 机 制 。 


SMI 3D NAND 产 品 路 线 图 


PCle G3 x4 PCIe G4 x4 
8CH 
Q1, 19 
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DRAM-Less 
MP 
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SMI 任 借 着 多 年 来 开发 内 存 相关 主 控 技术 的 积 妙 ， 在 SSD 主 控 上 面 
发 展 出 儿 项 苋 争 优势 : 


: 客 制 化 的 交 匙 (Turnkey) 方案 SMI 在 固态 硬盘 主 控 芯片 上 的 主 
要 优势 在 于 ， 能 够 提供 从 主 控 心 厂 到 固件 方案 ， 再 到 电路 板 设 计 、 内 
存 颗粒 的 配对 等 一 整套 固态 硬盘 的 解决 方案 ， 还 能 够 根据 采购 厂商 的 
个 性 化 需求 进行 定制 化 的 服务 。 茵 菜 提 供 的 一 站 式 服务 ， 能 够 充分 发 
挥 主 控 必 斤 与 固件 方案 紧密 结合 的 优势 ， 实 现 最 大 效能 与 最 小 功 耗 。 


:NANDExtend 专 家 ECC 纠 错 方案 : NANDExtend 是 SMI 结 合 LDPC 
及 多 项 SMI 专 利 的 纠 错 技术 ， 可 延长 内 存 使 用 寿命 高 达 3 倍 。 
NANDExtend 可 以 应 用 于 MLC、TLC 及 QLC 等 不 同 存 闪 。SMI 从 2009 年 
就 开始 致力 于 LDPC 纠 错 技术 ， 并 且 多 次 在 国际 会 议 上 发 布 相关 技术 ， 
目前 已 开发 至 第 四 代 的 LDPC 纠 错 技 术 。 


.自制 的 物理 层 (Physicallayer, PHY) 接口 技术 : SATA 与 PCle 
SSD 都 需要 用 物理 层 来 传输 数据 ， 有 了 自制 的 PHY， 才 能 快速 跟 未 来 新 
的 接口 接轨 并 使 用 更 新 的 半导体 制程 技术 。 从 产品 路 线 图 上 来 看 ，SMI 
在 2018 年 发 表 的 PCIe Gen3x4SSD 主 控 上 面 已 经 全 面 转向 28nm，PCIe 
Gen 4 更 会 使 用 12nm， 是 目前 能 看 到 的 第 一 个 会 使 用 12nm 的 SSD 主 探矿 


商 。 


慧 革 虽然 在 SSD 起 步 比 其 他 主 控 公 司 来 得 晚 ， 但 凭借 过 去 多 年 在 各 
类 闪存 主 控 上 的 技术 开发 积累 ， 这 三 年 来 在 SSD 方 面 飞 快 成 长 ， 一 站 式 
的 方案 更 帮助 了 国内 外 许多 目 有 品牌 SSD 制 造 商 快速 癌 终 端 市 场 推 出 极 
具 技 术 竞 争 力 的 产品 。 除 了 原本 的 SATA SSD 主 控 外 ，2017 年 更 一 次 推 
出 三 颗 第 二 代 PCIe Gen3x4 的 主 控 必 片 。2017 年 在 深圳 举行 的 内 存 市 场 
高 峰会 上 ，SMI 也 表示 除了 消费 性 SSD 以 外 ， 他 们 也 即将 进军 企业 级 的 
SSD 主 控 以 及 软件 定义 存储 (Software Defined Storage) 的 市 场 ， 持 续 
扩大 他 们 在 固态 存储 方面 的 影响 力 。 


2. 群 联 主 控 


群 联 电子 于 2000 年 11 月 成 立 。 从 提供 全 球 首 颗 单 必 片 U 强 控制 必 片 
起 家 ， 群 联 目 前 已 经 成 为 U 盘 、SD 存 储 卡 、eMMC、UFS、PATA 与 
SATA 固 态 硬 盘 等 控制 忆 片 领域 的 领头 者 。 群 联 是 ONFI (Open NAND 
is ro 的 创始 人 之 一 ， 同 时 也 是 SD 协会 的 董事 。 群 联 主 控 如 

2-2ÀTZR ° 


362-2 ”和 群 联 主 探 列 表 


ZEEE nt 


PS3107-S7 


PS3108-S8 


PS3109-S9 


PS3110-S10 


PS3111-S11 


* BCH ECC 
i * SmartRefresh ™ 
SATAII Optional 256GB - No 
* SmartFlush ™ 
* GuaranteedFlush 7M 
* BCH ECC 
* SmartRefresh 7M 
1TB PS3108-A8 |* SmartFlush ™ 
* GuaranteedFlush 7M 
* 支持 DEVSLP 
* BCH ECC 
* SmartRefresh 7M 
LPSDR 256GB 4 PS3109-A9 |*SmartFlush ™ 
* GuaranteedFlush 7M 
* Xj DEVSLP 


。 端 到 端 数据 保护 

* SmartECC TM 

* SmartRefresh 7M 
DDR3/DDR3L |2TB PS3110-A10 | * SmartFlush 7M 

* GuaranteedFlush 7M 

。 支持 DEVSLP 

。 支 持 TLC Flash 

* LDPC 

*。 端 到 端 数据 保护 

* SmartECC TM 

* SmartRefresh 7M 

* SmartFlush 7M 
DRAM-less 1TB 2 No 

* GuaranteedFlush 7M 

* SmartZIP 7M 

。 支 持 DEVSLP 

。 支 持 TLC 

。 支持 3D 闪存 


SATAIIT 


SATA III 


SATA III 


SATA III 


(5x) 
特色 
* NVMel.ib 
* PCIe3.0 
*。 端 到 端 数据 保护 
* SmartECC 7M 
PS5007-E7 PCIe Gen3 x 4 | DDR3L PS5007-A7 |° SmartRefresh ™ 
* SmartFlush 7M 
* GuaranteedFlush 7M 
。 支 持 TLC 
。 支 持 工 1.2 模式 
。NVMel.2 
* PCIExpress Rev.3.1 
*。 端 到 端 数据 保护 
* StrongECC 
* SmartECC 7M 
* SmartRefresh 7M 
* SmartFlush 7M 
* GuaranteedFlush 7M 
* 1$ MLC/TLC/3D 闪存 
。 支 持 L1.2 模 
* Single Root IO 


* Virtualization 


控制 器 型 号 


E8: 
DDR3&DDR3L 
EST: 
DRAM-Less 


PS5008-ES/EST |PCIe Gen3 x2 


* Pyrite 


群 联 主 控 ， 因 其 中 流 的 产品 性 能 、 低 廉 的 价格 以 及 全 面 的 服务 ， 
MARERE, RPMN WIER, PRAAK AA TR m 
的 首选 方案 之 一 。 


以 上 与 控制 器 相关 的 信息 来 自 群 联 官网 : http:/www.phison.com ° 
3. 其 他 国产 主 控 

固态 硬盘 市 场 近 儿 年 红 得 发 上 紧 ， 品 牌 商 、 代 工厂 、 心 请 设计 公司 
各 显 神通 ， 都 期 望 在 这 个 市 场 分 一 杯 资 。 那 我 们 就 来 择 一 持 国 内 其 他 
地 区 目 主 SSD 心 斤 设 计 公 司 ， 看 谁 有 可 能 赣 出 一 族 天 地 。 

海 思 毫 无 疑问 是 很 强 的 ， 不 过 它 的 忌 族 只 给 华为 用 ， 所 以 束 不 列 
为 讨论 对 象 。 琵 下 的 就 是 记忆 科技 、 漳 南国 科 微 、 杭 州 华 澜 微 ， 其 他 
还 有 很 多 正在 做 的 ， 但 应 该 还 没有 做 出 正式 心 请 。 


记忆 知春 联想 的 天 系 ， 在 内 存 市 场 做 大 ， 看 到 SSD 在 PC 市 场 有 前 
景 ， 很 早 就 切入 到 SSD 领 域 。 记 忆 理 想 远 大 ， 所 以 组 建 团 队 做 SSD 必 


片 。 切 入 的 时 间 点 很 好 ， 同 时 经 过 四 五 年 的 努力 ， 已 经 出 了 一 款 SATA 
控制 费 ， 性 能 还 不 锯 ， 可 靠 性 耕 可 以 再 完善 ， 那 么 就 有 布 望 把 主 控 用 
在 目 己 的 SSD 上 。 拥 有 目 己 的 主 控 后 束 具 备 了 和 其 他 主 控 讨 价 还 价 的 能 
力 ， 海 思 在 早期 整 是 华为 用 来 和 外 资 羽 厂 议价 的 工具 。 


国 科 微 在 2016 年 1 月 发 布 了 首 球 主 控 GK2101， 其 采用 40nm 工 杞 ， 
支持 SATA/NVMe/AHCI、8 通 道内 存 和 LDPC， 这 算是 比较 领先 的 了 。 
尽管 PCIe 只 有 GEN2X4， 不 过 相信 和 他们 下 一 代 很 快 就 会 在 上 。 据 说 已 经 
有 客户 开始 测试 ， 估 计 不 久 就 可 以 实现 量 产 。 想 当初 ， 国 科 微 在 卫星 
芯片 市 场 杀 出 重围 ， 赚 到 第 一 桶 金 ， 在 安防 监控 市 场 表 现 也 不 错 ， 叉 
有 大 基金 加 持 ， 成 功 IPO 上 市 。 国 科 微 通过 第 一 代 SSD 主 控 在 市 场 学 到 
一 些 经 验 ， 若 能 把 一 些 欠 缺 的 技术 补 强 ， 还 是 大 有 可 为 的 。 


华 澜 微 最 开始 是 做 SD/IMMC 和 U 盘 控制 器 的 ， 在 2016 年 年 初 收购 了 
晶 量 半导体 ， 所 以 也 拥有 了 桥接 芯片 产品 线 。 其 在 接口 方面 的 竞争 优 
势 比较 大 ， 但 目前 看 到 的 PCIe 产 品 还 是 GEN2。 可 能 是 为 了 充分 发 挥 自 
己 桥接 的 优势 ， 他 们 的 主 控 和 一 般 主 控 不 同 ， 采 用 类 似 桥接 的 方式 ， 
通过 SATA 转 eMMC 等 来 拼 成 一 个 SSD， 这 样 主 控 就 不 需要 FTL， 开 发 
难度 会 降低 。 不 过 鱼 与 能 掌 不 可 兼 得 ， 拼 接 也 有 可 能 会 影响 性 能 和 寿 
命 。 但 是 也 不 是 什么 大 问题 ， 毕 竞 性 能 可 通过 上 层 算法 优化 ， 而 且 一 
般 来 讲 ， 用 户 对 性 能 要 求 并 不 是 非常 高 ; 寿命 可 以 通过 RAID 方 式 来 补 
强 ， 只 要 控制 好 整体 成 本 就 是 好 方案 。 


前 面 讲 的 都 已 经 做 出 了 产品 的 三 两 ， 后 面 束 讲 讲 正 在 做 产品 的 三 
商 。 昌 说 先发制人 ， 但 是 芯片 设计 是 马拉松 竞赛 ， 后 发 未 必 制 于 人 ， 
还 有 可 能 少 走 一 些 弯路 。 


2016 年 12 月 27 日 ， 北 京 得 瑞 领 新 科技 有 限 公司 (DERA) 宣布 推出 
自主 研发 的 TAI 控制 器 。 支 持 NVMe 1.2 标 准 及 PCIe 3.0 接 口 ，4KB 随 机 
写 IOPS 可 以 达到 500k， 而 4KB 随 机 读 更 是 可 以 达到 1250k IOPS， 顺 序 
瑟 读 分 别 为 4.5GB/s 和 5.1GB/s。 目前 已 经 成 功 流 片 ， 估 计 正 在 把 产品 弄 
稳定 。DERA 团 队 人 数 不 多 ,但 是 不 少 核心 成 员 来 自 最 早 做 SSD 的 SST 
me ， 有 zl DEDITUS 所 以 能 在 这 么 短 的 时 间 内 设计 出 一 款 高 
性 能 SSD 主 控 。 


Tu (Starblaze) 这 个 名 字 可 能 很 多 人 不 熟悉 ， 但 是 说 起 
Memblaze， 大 家 就 都 知道 了 。 忆 忌 团 队 核 心 成 员 来 自 Memblaze，2017 


FEDIA, SS BAD iot [DI MZ ETE BG T ATO. WARK 
还 是 比较 看 好 他 们 的 前 景 的 。 


滔 潮 和 山东 华 必 半导体 专注 安全 固态 硬 强 ， 他 们 的 SATA SSDI 
堪 已 经 通过 国家 密码 局 必 斤 测试 。 研 发 团队 由 有 硅谷 背景 的 资深 技术 
IZEN, THE ACAUH O18 ° 
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片 ， 支 持 AES 128/256 ` TCG Opal Full-Drive 等 加 密 机 制 。 


Greenliant 是 由 原 SST (冠捷 半导体 ) 创始 人 Bing Yeh 创 立 的 一 家 快 
速成 长 的 存储 芯片 、 系 统 和 方案 提供 商 。 公 司 前 映 为 SST， 其 核心 技术 
员工 及 管理 层 均 来 自 SST 的 研发 和 市 场 部 门 。SST 在 2000 年 开始 做 BGA 
SSD，2010 年 把 SSD 业 务 卖 给 Greenliant， 同 年 ，Microchip 收 购 SST。 


人 硅 格 ， 成 立 于 2007 年 ， 在 内 存 存储 领域 措 候 深 打 近 十 年 ， 也 算是 
小 有 成 绩 。 在 2017 年 深圳 举行 的 中 国内 存 市 场 峰会 上 ， 硅 格 半导体 总 
经 理 吴 大 县 先生 表示 ，10 多 年 来 ， 硅 格 素 计 出 货 数 亿 颗 eMMC 控 制 右 
° 在 SSD 领 域 ， 尽 管 起 步 稍 晚 ， 但 SATA 的 控制 占 很 快 束 会 面 


威盛 在 北京 的 团队 也 从 事 SSD 主 控 芯 片 研发 ， 产 品 接口 从 SATA 到 | 
PCIe 3.0 都 有 ， 支 持 TLC 闪 存 和 LDPC 纠 错 。 


联系 ， 总 部 位 于 杭州 ， 在 台湾 也 有 团队 。 它 的 前 身 是 JMicron ， 
台湾 不 肯 开 放心 片 设计 业 ， 索 性 把 台湾 的 部 门 解 散 ， 到 杭州 来 注册 
公司 ， 成 为 目 主 品 牌 ， 以 后 会 慢 慢 看 不 到 智 微 的 控制 大 了 。 以 JMicron 
在 SSD 领 域 这 么 多 年 的 积累 ， 技 术 起 点 会 高 不 少 ， 但 是 关键 要 看 老板 想 
怎么 玩 ， 炬 力 束 是 前 车 之 鉴 。 只 要 能 让 员工 也 能 分 至 到 公司 发 展 的 好 
处 ， 束 有 机 会 发 展 起 来 。 


Phison 在 合肥 成 立 了 兆 芯 ， 希 望 能 落地 开花 。 


还 有 一 个 大 玩家 是 兆 易 创新 ， 其 上 市 之 后 ， 内 电 买 下 忆 正 武汉 SSD 
工厂 。2016 年 4 月 新 成 立 子 公司 上 海 蹇 问 电 子 信息 技术 有 限 公 司 ， 引 入 
国内 业界 顶尖 的 技术 团队 ， 主 要 成 员 来 目 SSD 探 制 右 的 传奇 公司 
SandForce， 专 注 于 SSD 人 研发 。 如 果 武 汉 长 江 存 储 的 3D 办 存 能 如 期 量 
产 ， 以 他 们 之 前 的 合作 关系 ， 应 该 是 最 容易 拿 到 颗粒 的 。 这 样品 牌 和 
颗粒 都 有 了 ， 不 做 SSD 探 制 器 就 说 不 过 去 了 。 


深圳 的 新 创 SSD 控 制 器 公司 大 普 微 电子 也 是 后 起 之 秀 ， 他 们 得 到 了 
深圳 市 的 大 力 文 持 ， 同 时 产品 文 择 人 工 智能 等 功能 ， 很 有 特色 。 


国内 还 有 不 少 知 名 SSD 广 商 的 部 分 产品 采用 FPGA 探 制 器 方案 ， 比 
如 方 一 信息 科技 、 宝 存 科 技 等 。 这 些 公 司 发 展 如 何 ， 还 需要 三 五 年 后 
才能 看 出 水 平 ， 但 是 只 要 能 耐 得 住 寂寞 ， 坚 持 打磨 产品 ， 再 配 上 良好 
的 激励 机 制 ， 还 是 很 有 可 能 成 功 的 。 


2.3 案例; E% (SiliconGo) SG9081 主 控 


本 节 以 国产 主 控 厂 商 硅 格 的 SATA3.2SSD 主 控 SG9081 为 例 ， 齐 析 一 
下 主 控 如 何 实现 高 性 能 。 


图 2-14 为 SG9081 主 控 的 结构 框图 。 


CPUO CPUI ROM 
SATA PHY | SATAMAC Micro Processor es 
RAMs 


NAND 
Flash 
Bus Controller as 
Flash Chips 


Controller 


图 2-14 SG9081 主 挖 的 结构 框图 
1.HAM+GoCache 加 速 随机 读 写 的 IOPS 


HAM 是 硬件 加 速 模块 的 简称 ，SSD 主 控 中 除了 MCU 以 外 ， 还 有 一 
个 硬件 加 速 模 块 HAM。 该 模块 将 部 分 算法 处 理 的 动作 硬件 化 ， 一 方面 
释放 了 MCU 的 资源 ， 另 外 一 个 方面 则 加 速 了 算法 的 实现 ， 尤 其 是 对 小 
数据 的 处 理 。 另 外 ， 主 控 中 集成 了 GoCache (SiliconGo 独 有 技术 ) ， 可 
高 效 地 实现 映射 关系 的 管理 ， 从 而 更 高 效 地 提高 对 小 数据 的 传输 能 
力 。 两 者 的 结合 实现 了 SSD 成 品 模 组 性 能 的 提升 。 


2.DMAC 加 速 顺 序 读 写 


DMAC 是 Direct Memory Access Controller 的 缩写 。 该 模块 的 存在 使 
得 SSD 在 进行 连续 大 数据 传输 的 时 候 ， 不 用 一 直 占 据 MCU 的 资源 。 当 
DMA 请 求 被 发 起 时 ， 内 部 总 线 裁决 逻辑 将 交 由 DMAC 控 制 ， 接 着 数据 
高 速 传 输 动作 开启 。 传 输 过 程 中 ，MCU 可 以 去 处 理 其 他 的 事务 ， 而 当 
数据 传输 结束 之 后 ，DMAC 又 会 将 总 线 让 给 MCU。 在 这 样 的 机 制 保证 
下 P ， 从 而 表现 出 优秀 的 顺序 读 
写 性 能 。 


3.LDPC+RAID 提 高 可 靠 性 ， 增 强 内 存 耐 久 度 和 数据 留存 能 


目前 内 存 正 从 2D 转 向 3D 架 构 ， 对 闪存 纠 错 处 理 的 要 求 也 越 来 越 
高 ， 早 期 的 BCH 已 经 无 法 满足 先进 制程 或 先进 工艺 的 内 存 。SG9081 主 
控 采 用 LDPC 实 现 ECC，LDPC 码 在 相同 的 用 户 数据 条 件 下 ， 与 BCH 校 
验 码 相 比 能 纠正 更 多 的 错误 ， 同 时 也 增强 了 闪存 的 使 用 寿命 。 而 RAID 
功能 的 引进 则 给 数据 保护 加 上 了 一 个 双 保 险 。 主 控 中 的 RAID 功 能 可 以 
理解 为 给 数据 做 了 一 层 校 验 保护 ， 必 要 的 时 候 可 以 通过 校 验 的 内 容 恢 
复 为 原始 数据 。LDPC 和 RAID 功 能 大 大 地 提高 了 数据 的 稳定 性 。 


2.4 案例 : 企业 级 和 消费 级 主 控 需求 的 归 一 化 设 
计 
SSD 有 企业 级 与 消费 级 之 分 。 企 业 级 SSD 产 品 更 加 注重 随机 性 能 、 


延迟 、IO QoS 的 保证 及 稳定 性 ， 而 消费 级 产品 则 更 加 注重 顺序 性 能 、 
功 耗 、 价 格 等 ， 如 表 2-3 所 示 。 


表 2-3 企业 级 和 消费 级 SSD 对 比 


性 能 耐久 i 
生命 周期 1 一 5 (DWPD) 500TWD 5 V «2.5W 
容量 osr- sr | ecB-imB | | | 


SSD 控 制 器 在 设计 时 需要 为 企业 级 和 消费 级 产品 分 别 优化 ， 这 样 不 
仅 加 大 了 研发 成 本 ， 也 增 大 了 下 游 多 系列 SSD 产 品 开发 的 复杂 度 。 


征 否 有 一 款 归 一 化 的 SSD 控 制 右 ， 能 同时 满足 企业 级 稍 费 级 需 
ok? 主要 的 问题 在 于 能 否 在 控制 右 便 件 洪 构 上 实现 成 本 、 功 耗 和 功能 


1) 成 本 方面 ， 企 业 级 SSD 对 控制 器 成 本 较 不 敏感 ， 归 一 化 SSD 控 
制 器 需要 着 重 满足 消费 级 SSD 的 成 本 预算 。 采 用 通用 硬件 染 构 并 优化 硬 
件 资 源 开销 来 约束 SSD 控 制 絮 成 本 ， 通 过 有 夸 异 化 固件 来 满足 企业 级 与 消 
费 级 产品 的 不 同性 能 需求 。 


2) 在 性 能 方面 ， 经 过 市 场 沉淀 ，NVMeU.2 形 态 与 M.2 形 态 的 SSD 
逐渐 成 为 主流 ， 两 种 形态 的 SSD 产 品 性 能 需求 也 趋 于 一 致 。 作 为 AIC 形 
态 的 取代 品 ，1U 服 务 器 普遍 承载 8 块 或 更 多 U.2 形 态 SSD， 使 得 U.2 形 态 
SSD 单 盘 4KB 随 机 性 能 在 300~-400KIOPS， 这 已 能 满足 大 部 分 应 用 需 
求 。 反 观 消费 级 SSD 市 场 ， 高 端 游 戏 平 台 NVMe M.2 形 态 的 SSD 理 论 上 
性 能 已 达 3.5GB/s， 这 样 的 性 能 指标 已 与 一 些 企业 级 SSD 的 顺序 IO 相 
近 。 一 些 互 联网 厂商 已 在 IDC 数 据 中 心中 应 用 M.2 形 态 的 SSD。 在 数据 
中 心 ， 上 层 对 数据 流 做 了 大 量 优化 ， 数 据 以 顺序 访问 方式 写 入 SSD， 这 
降低 了 对 企业 级 SSD 随 机 性 能 的 需求 。 


3) 在 寿命 上 ， 企 业 级 与 消费 级 SSD 需 求 差别 较 大 。 但 影响 SSD 寿 
命 的 主要 因素 在 于 内 存 的 耐久 能 力 。SSD 控 制 右 则 确保 加 强 对 内 存 的 纠 
2 ° 因 此， 企业 级 与 消费 级 SSD 控 制 絮 在 寿命 方面 的 设计 目标 古 一 


4) 在 容量 上 ， 企 业 级 SSD 与 消费 级 SSD 差 异 较 大 。SSD 控 制 器 需 
要 以 比较 小 的 代价 支持 大 容量 内 存 ， 以 便 同 时 覆盖 企业 级 与 消费 级 SSD 


的 需求 


5) 可 靠 性 方面 ， 企 业 级 SSD 一 般 要求 ECC 与 DIE-RAID 两 层 数据 保 
护 能 力 。 而 随 着 3D 闪 存 逐 步 普 及 ， 闪 存 厂 商 开 始 建议 在 消费 级 SSD 上 
提供 DIE-RAID 能 力 。 所 以 在 可 靠 性 方面 ， 企 业 级 与 消费 级 SSD 控 制 右 
的 设计 目标 也 趋 于 一 致 了 。 


6) 在 功 耗 方面 ， 消 费 级 产品 对 功 耗 最 为 敏感 ， 特 别 是 像 平 板 、 笔 
记 本 电脑 这 种 电池 供电 设备 ， 对 功 耗 有 疡 格 的 限制 。SSD 欣 制 套 在 设计 
时 需要 考虑 复杂 的 低 功 耗 需求 ， 需 要 文 持 多 种 电源 状态 ， 以 及 快速 唤 
醒 。 企 业 级 SSD 对 功 耗 相对 不 敏感 。 然 而 对 于 整个 数据 中 心 ， 电 力 成 本 
已 占 数据 中 心 运营 成 本 近 20%。 随 着 SSD 的 大 规模 部 署 ， 低 功 耗 设计 也 
成 为 企业 级 SSD 榨 制 厦 的 追求 目标 。 


从 上 面 几 点 不 难看 出 ， 在 企业 级 与 消费 级 SSD 设 计 指 标 趋 于 一 致 的 
趋势 下 ， 硬 件 规格 实现 统一 是 极 有 可 能 的 。 而 SSD 产 品 形态 的 差异 化 则 
由 SSD 控 制 器 上 的 固件 体现 。 忆 心 科技 的 STAR1000 心 片 在 设计 中 对 此 
做 了 比较 成 功 的 尝试 ， 如 图 2-15 所 示 。 


STAR1000 性 能 指标 与 关键 技术 
随机 读 (IOPS) 
随机 写 GOPS) 。 软件 定义 架构 
iia : 。SMP 多 核 CPU 


。 国 | 件 升 级 支持 最 新 NVMe 协议 


。 微 码 升级 支持 新 型 NAND 闪存 


。 数 据 保 护 与 错误 处 理 
。 数 据 通 路 端 到 给 保护 
< 。 片 上 RAM SECDED 
. 1- Jl. Apes h 
SEE 
让 。 但 率 月 适应 可 配置 LDPC 
图 2-15 “STAR1000 关 键 技术 


STAR1000 固 态 硬 盘 控 制 器 采用 SMP 架 构 ， 极 大 程度 保留 了 硬件 扩 
展 性 和 软件 灵活 性 ， 便 于 多 种 存储 硬件 加 速 模块 的 集成 ， 降 低 了 固件 
开发 的 复杂 度 ， 对 实时 0OS 有 天 然 的 良好 文 持 。 


可 靠 性 方面 ， 对 片上 SRAM、 片 外 DRAM 与 数据 通路 都 可 进行 错误 
校 验 ， 满 足 了 企业 级 要 求 ， 用 极 小 代价 实现 了 RAID5/6 保 护 机 制 ， 特 别 
是 通过 RAID 的 校 验 RAM 和 片上 SRAM 共 享 设计 ， 既 能 满足 企业 级 SSD 
要 求 ， 也 能 在 某 些 消费 级 产品 不 需要 RAID 机 制 时 ， 将 SRAM 让 给 固件 
做 其 他 事情 ， 极 大 提升 了 资源 利用 率 。 


NVMe 于 系统 采用 2 颗 32 位 著 入 式 CPU 搭配 NVMeIO 人 硬件 加 速 器 方 
案 ， 特 别 适合 低 功 耗 实现 消费 级 SSD 的 基础 1O 性 能 要 求 ， 同 时 满足 了 
企业 级 应 用 中 对 队列 调度 策略 、 高 性 能 SGL 实 现 、 原 子 操作 、 
HMB/CMB 文 持 等 特性 ， 此 外 还 支持 多 VF 的 SRIOV ° 


25 案例 ， DERA (得 瑞 领 新 ) NVMe 控 制 器 TAI 
和 NVMe SSD 产 品 


NVMe 协 议 面 向 现代 多 核 计算 系统 结构 设计 ， 充 分 发 挥 NVM 介 质 
高 并 发 及 低 延 迟 的 特性 ， 为 实现 高 吞吐 量 、 低 延迟 的 存储 设备 打下 了 
良好 的 生态 基础 。DERA Storage 遵 循 协议 标准 ， 面 向 企业 计算 市 场 ， 
开发 提供 高 性 能 、 高 可 靠 的 NVMe SSD 解 决 方案 。 


控制 絮 是 NVMe SSD 的 核心 部 件 ， 是 连接 主机 总 线 和 内 存单 元 的 桥 
深 。 本 质 上 ， 一 个 NVMe SSD 设 备 内 部 需要 处 理 高 并 发 的 大 量 IO 事 
务 ， 每 个 IO 事务 都 伴随 多 种 硬件 操作 和 事件 处 理 ， 其 中 一 些 功能 特性 
需要 结合 计算 密集 型 的 操作 ， 比 如 用 于 数据 错误 检测 的 编 解 码 ， 或 者 
数据 加 密 、 人 解密 ， 在 完成 这 些 处 理 的 同时 还 要 满足 苛刻 的 功 耗 要 求 ， 
因此 不 可 避免 地 需要 使 用 专用 的 硬件 加 速 单元 。 综 合 考 虑 ，NVMe SSD 
控制 器 一 般 是 紧密 结合 NAND 闪 存 管理 软件 进行 高 度 定 制 化 设计 的 
ASIC (专用 集成 电路 ) 。 只 有 将 数据 通路 、 计 算 资 源 都 经 过 合理 安排 
Tu e ME SSD 才 能 在 可 靠 性 、 人 性 能 、 功 耗 儿 个 方面 实现 

Fah yh? 


DERA NVMe 控 制 器 是 DERA NVMe SSD 产 品 的 核心 部 件 ，TAI 是 
DERA 的 第 一 款 控制 器 〈 见 图 2-16) ° DERA TAI 前 端 支持 PCIe Gen3x8 
或 x4 接 口 ， 集 成 多 个 NAND 接 口 通道 和 高 强度 ECC 人 硬件 编 解 码 单元 ， 所 
有 数据 通道 均 运用 ECC 和 CRC 多 重 硬 件 保 护 机 制 。 在 TAI 控制 器 基础 
上 ， 紧 密 协 同 设计 的 闪存 转换 层 (FIL) 算法 负责 调度 管理 ， 综 合 运用 
多 种 技术 实现 企业 级 的 数据 存储 可 靠 性 ， 充 分 发 挥 NAND 闪 存 的 高 速 
存 取 特 点 ， 实 现 高 可 靠 、 低 延 时 、 高 吞吐 量 的 数据 存储 要 求 。 


DERA NVMe SSD 定 位 于 企业 级 应 用 ， 因 此 性 能 平稳 度 和 数据 可 靠 
性 是 核心 的 设计 要 点 。 


企业 级 应 用 要 求 存储 设备 在 稳定 一 致 的 基础 上 具备 高 性 能 和 低 延 
迟 的 特性 。 受 限于 介质 的 基本 工作 原理 ，SSD 需 要 通过 复杂 的 工程 设计 
才能 避免 出 现 性 能 抖动 、 延 迟 时 间 悉 化 等 负面 表现 。DERA 企 业 级 
NVMe SSD 充 分 预计 了 高 压力 下 的 极端 情况 ， 对 前 端 IO 请 求 和 后 台 行 
为 进行 精细 调度 和 控制 ， 确 保 在 任何 情况 下 ， 设 备 对 外 呈现 的 性 能 都 
能 稳定 在 可 预测 、 可 接受 的 水 乎 。 


在 数据 可 靠 性 方面 ，DERA 产 品 主要 通过 高 强度 的 硬件 ECC、 故 障 
主动 管理 、 完 整数 据 通 道 校 验 、 掉 电 保 护 、 功 耗 及 温度 自 监控 管理 等 
技术 设计 实现 。 
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图 2-16 DERA TAI 控制 器 


内 存 ECC 是 SSD 的 核心 功能 。 为 了 处 理 新 结构 、 新 工艺 节点 下 闪存 
芯片 的 高 原始 误 码 率 ， 以 及 满足 高 并 发 访问 时 的 低 延 迟 要 求 ，DERA 
TAI 控制 器 为 每 个 内 存 通 道 都 配备 了 独立 的 ECC 单 元 ， 纠 错 能 力 为 
100bAKB, ， 满 足 主流 闪存 器 件 对 主 控 纠 错 能 力 的 要 求 ， 即 在 复杂 度 、 
面积 和 功 耗 、 解 码 延 迟 时 间 确 定性 和 可 挖 性 等 多 个 方面 达到 了 良好 的 
均衡 。 此 外 ，DERA TAI 对 完整 数据 通道 的 ECC 保 护 和 CRC 校 验 ， 也 在 
“影响 性 能 的 前 提 下 为 数据 可 靠 性 提供 了 进一步 的 基础 保障 。 


内 存 存储 单元 在 形成 严重 错误 之 前 会 表现 为 误 码 率 的 渐进 式 提 
高 。 DERA SSD 在 充分 掌握 内 存 器 件 全 生命 周期 特性 的 基础 上 ， 在 运行 
过 程 中 根据 页 面 原始 误 码 率 的 变化 ， 实 现 对 故障 单元 的 主动 判定 及 预 
防 性 的 管理 策略 ， 在 最 大 化 有 效 使 用 存储 单元 的 基础 上 ， 最 大 限度 降 
低 因 存储 单元 故障 导致 的 数据 损坏 的 概率 。 与 此 对 应 ， 磨 损 平 衡 策略 
也 基于 对 存储 单元 的 实时 跟踪 结 采 而 动态 调整 ， 确 保 达 到 更 接近 真实 
情况 的 磨损 平衡 效果 。 


企业 级 SSD 另 外 一 个 非常 重要 的 系统 级 数据 保护 机 制 束 是 内 存心 片 
之 间 的 见 余 校 验 机 制 。DERA SSD 将 多 个 不 同 内 存 必 斤 上 的 存 人 铺 单 元 控 
照 一 定 大 小 进行 划分 ， 组 成 动态 组 合 的 见 余 校 验 结构 。 如 果菜 个 已 厂 
上 的 数据 块 出 现 错误 ， 管 理 算法 能 够 基于 其 他 必 斤 上 的 数据 块 重新 构 
建 出 错 必 片上 的 数据 ， 并 对 出 错 的 必 片 物理 单元 做 妥善 处 理 。 


在 IT 系统 运行 环境 下 ， 意 外 掉 电 是 不 可 避免 的 问题 。SSD 对 意外 掉 
电 奉 处 理 不 当 ， 很 大 可 能 会 导致 用 户 数据 被 破坏 旋 至 整个 设备 出 现 故 
BE» DERA SSD 提 供 完备 的 硬件 手段 持续 监测 供电 情况 ， 并 在 供电 异 解 
时 触发 保护 案 略 ， 目 动 切换 到 后 备 电 容 或 其 他 不 间断 电源 供电 ， 在 整 
体 的 软件 策略 上 予以 充分 配合 ， 在 发 生意 外 掉 电 时 最 大 限度 保证 用 户 
数据 的 完整 性 。 


NVMe SSD 是 高 性 能 设备 ( 见 表 2-4) ， 虽 然 能 提供 优越 的 性 能 功 
耗 比 ， 但 是 在 高 负载 情况 下 其 功率 消耗 和 相应 的 发 热量 也 是 不 能 忽视 
的 问题 。 受 限于 安装 密度 、 系 统 风 道 的 设计 ， 以 及 系统 风 局 管理 策略 
在 一 定 阶段 内 的 局 限 性 ， 在 某 些 安装 条 件 下 ，SSD 设 备 有 可 能 会 面临 散 
热风 量 不 足 的 问题 。DERA SSD 在 运行 过 程 中 持续 监测 设备 温度 及 功率 
使 用 情况 ， 并 按照 预定 策略 动态 处 理 ， 确 保 不 会 因为 系统 散热 条 件 不 
足 而 导致 设备 故障 或 更 严重 的 问题 。 


表 2-4 DERA NVMe SSD 人 性 能 


( Gen3x4 ) ( Gen3x8 ) ( Gen3x4 ) ( Gen3x8 ) 
顺序 读 取 随机 读 取 1.17M IOPS 


2.0 全 内 存 阵列 AFA 


经 常 听 人 说 起 全 闪存 阵列 ， 给 人 一 种 很 厉害 的 样子 ， 那 这 个 全 内 
存 阵列 到 底 是 个 什么 东西 ? 下 面 将 以 某 一 款 EMC XtremIO 为 例 来 带 你 
AT] ° 


本 和 参考 了 Vijay Swami 写 的 XtremIO Hardware/Software 
Overview&Architecture Deepdive— X. , 图 片 也 主要 来 目 这 篇 文章 。 


2.6.1 整体 解剖 


1. 结 构 
图 2-17 所 示 是 一 个 标准 的 XtremIO 全 闪存 阵列 ， 含 有 两 个 X-Brick， 


之 间 用 Infiniband 互 联 。 可 以 看 出 ，X-Brick 是 核心 ， 那 么 X-Brick 里 面 究 
竟 是 什么 ? 


第 一 个 X-Brick 


! -— Infiniband 交换 机 


第 二 个 X-Brick 


图 2-17 XtremIO 全 闪存 阵列 结构 
我 们 来 看 看 ， 一 个 X-Brick 包 括 : 
1 个 高 级 UPS 电 源 ; 
2 个 存储 控制 器 ; 


. 偿 盘 阵列 存储 想 DAE， 放 有 很 多 个 SSD， 每 个 SSD 都 用 SAS 连 接 到 
存储 控制 器 ; 


-如果 系统 有 多 个 X-Brick， 那 么 需要 2 个 Infiniband 交 换 机 来 实现 存 
储 控 制 器 高 速 互联 。 


2. 存 储 控制 器 

如 图 2-18 所 示 ， 存 储 控制 絮 其 实 就 是 个 Intel 服 务 絮 ， 配 有 2 个 电 
源 ， 看 起 来 是 NUMA 架 构 的 2 个 独立 CPU、2 个 Infiniband 控 制 器 、2 个 
SAS HBA 卡 。Intel E5CPU， 每 个 CPU 配 有 256GB 内 存 。 
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图 2-18 存储 控制 右 机 箱 内 部 


如 图 2-19 所 示 ， 其 后 面 插 有 各 种 线 缆 ， 看 着 感觉 乱糟糟 的 ， 如 图 2- 
19 所 示 。 设 计 的 届 构 适用 于 集群 ， 所 以 线 统 有 很 多 走 元 余 的 。 


图 2-19 X-Brick E rZ E 
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图 2-20 Xtrem-IO 全 闪存 阵列 正面 照片 
3. FU B 


如 表 2-5 所 示 ， 一 个 X-Brick 容 量 是 10TB， 可 用 容量 7.5TB， 但 是 考 
虚 到 数据 去 重 和 压缩 大 概 为 5:1 的 比例 ， 最 终 可 用 容量 为 37.5TB 。 


表 2-5 XtremIO 配 置 表 
8 个 X-Brick 集群 


4 个 X-Brick 控制 器 ”|8 个 X-Brick 控制 器 ”|16 个 X-Brick 控制 器 
个 X-Brick DAE 8 个 X-Brick DAE 8 ^ X-Brick DAE 
Pe dee ces 


^- X-Brick 控制 器 
组 件 个 X-Brick DAE 
个 备用 电源 


物理 容量 (TB ) 
mg — ps — — (|s —— e ls 
EEA k (TB) EE 


4. 性 能 
有 人 做 了 XtremIO 人 性 能 测试 ， 在 2 个 X-Brick 的 全 内 存 降 列 跑 了 550 


个 虚拟 机 ， 为 7000 个 用 户 服务 器 提供 服务 。 其 每 天 平均 读 写 市 宽 
350MB/s--400MB/s, 20kIOPS; 最 高 时 达到 20GB/s，200k IOPS ° 


5. 软 件 控 制 台 


我 们 来 看 看 软件 控制 台 参数 ， 如 图 2-21 所 示 ， 图 左边 显示 数据 降低 
X25: 1， 其 中 去 重 率 1.5: 1， 压 缩 率 1.7: 1; 图 右边 是 带宽 、IOPS 和 
延迟 监控 图 ， 显 示 每 个 SSD 当 前 的 性 能 和 汇总 的 读 写 性 能 。 


图 2-21 软件 控制 台 性 能 监控 


图 2-22 是 每 个 SSD 的 监控 图 ，DAE 中 每 个 盘 下 面 有 模拟 的 灯 ， 根 据 
盘 当 前 的 读 写 活 动 不 断 内 烁 ， 看 起 来 非常 酯 


图 2-22 SSD 监控 图 


2.6.2 ”硬件 架构 


EMC XtremIO 征 EMC 对 全 闪存 阵列 市 场 的 突袭 ， 它 从 展 层 开始 完 
全 根据 内 存 特性 设计 。 


如 图 2-23 所 示 ，1 个 X-Brick 包 含 2 个 存储 控制 器 ， 一 个 装 了 25 个 
SSD 的 DAE， 还 有 2 个 电池 备用 电源 (Battery Backup Unit, BBU) 。 每 
个 X-Brick 包 含 25 个 400GB 的 SSD， 原 始 容量 10TB， 使 用 的 是 高 端的 
eMLC 闪 存 ， 一 般 擦 写 寿 命 比 普通 的 MLC 长 一 个 数量 级 。 如 果 只 买 一 个 
X-Brick， 配 有 两 个 BBU， 其 中 一 个 是 为 了 元 余 。 如 果 继 续 增 加 X- 
Brick， 那 么 其 他 的 X-Brick 只 需要 一 个 BBU ° 
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图 2-23 XX-Brick 尺 十 


X-Brick 支 持 级 联 来 增加 容量 ， 所 以 其 是 一 种 Scale-Out 架 构 ， 最 多 
可 以 到 4 个 X-Brick 甚 至 8 个 X-Brick ( 见 图 2-24) ° 
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[2-24 X-Brick 5 HX 


X-Brick 之 间 采 用 40Gbps 的 Infiniband 交 换 机 互联 。 


图 2-25 所 示 是 一 个 X-Brick 存 储 控 制服 务 器 的 所 有 端口 ，40Gbps 
Infiniband 接 口 是 为 了 后 端 数据 和 连接， 其实 就 是 X-Brick 之 间 的 互联 。 那 
么 ， 阵 列 和 主机 控制 端 如 何 进行 数据 交互 呢 ? 可 以 看 出 ， 既 可 以 使 用 
8Gbps FC， 也 可 以 使 用 10Gbps 的 iSCSI。 那 又 是 如 何 连 到 那么 多 的 SSD 
LUE? 用 的 是 6Gbps 的 SAS 接 口 ， 和 VNX 类 似 。 同 时 ， 电 源 和 所 有 的 接 
口 都 是 有 宛 余 的 ， 用 来 应 对 故障 。 那 么 一 个 X-Brick 节 点 自己 数据 的 存 
储 如 何 解决 呢 ? 它 配 有 2 个 SSD， 用 来 掉 电 时 保存 内 存 中 的 元 数据 。 要 
知道 ， 去 重 还 是 很 占用 内 存 的 ， 因 为 一 般 每 个 数据 块 需要 计算 出 一 个 
Hash 值 ， 甚 至 双重 Hash， 用 Hash 值 来 判断 唯一 性 。 同 时 还 有 2 个 SAS 硬 
盘 ， 作 为 操作 系统 运行 的 磁盘 。 


6 6 Gbps SAS | SAS 


Ipmi + mgmt 


图 2-25 XX-Brick 存 储 控制 器 端口 


这 笠 一 来 ， 存 储 控制 问 有 目 己 的 便 盘 ， 而 不 操 用 DAE 里 面 的 SSD 
阵列 ， 内 存 阵列 只 用 于 存储 用 户 数据 ， 受 2 个 存储 控制 右 管 理 。 这 种 以 
构 的 好 处 是 结构 清晰 、 弄 限 分 明 ， 未 来 还 能 直接 升级 存储 控制 部 软 便 
件 而 不 动 内 存 阵列 里 的 数据 。 


再 来 看 看 每 个 存储 控制 器 的 配置 : 有 2 个 CPU 搬 槽 的 1U0 机 箱 ， 使 用 
2 个 8 核 的 Intel Sandy Bridge CPU，256GB 内 存 。 


现在 很 多 厂商 都 以 最 高 性 能 为 芝 ， 拿 一 个 新 盘 ， 写 一 点 数据 ， 甚 
至 往 DRAM Cache 里 面 写 一 点 然后 读 出 来 ， 就 吹 咕 带宽 、IOPS、 延 迟 
达到 什么 程度 。 更 有 甚 者 ， 不 写 数据 ， 空 盘 读 ， 达 到 荐 峰 带 宽 ， 简 直 
把 用 户 当 三 岁 小 孩 。 殊 不 知 ， 对 用 户 来 讲 ， 尤 其 是 企业 级 用 户 ， 最 高 
性 能 说 明 不 了 什么 ， 只 能 忽悠 那些 不 懂行 的 人 ， 对 真正 业内 人 士 来 
说 ， 实 际 使 用 的 稳定 性 能 才 是 王道 。 


EMC 全 闪存 阵列 XtremIO，1 个 10TB 的 X-Brick， 可 用 容量 只 有 
7.5TB， 但 是 考虑 到 数据 去 重 ， 用 户 能 用 的 容量 其 实 很 大 ， 跟 实际 的 应 
用 相关 。 比 如 虚拟 桌面 VDIS 用 ， 数 据 重复 率 很 高 ， 想 想 不 同 人 安装 的 
Windows XP 虚拟 机 的 系统 文件 基本 都 是 一 样 的 ， 去 重 可 以 省 下 多 大 的 
空间 啊 ! 但 是 像 一 般 的 数据 库 应 用 ， 重 复 率 又 很 低 ， 毕 竟 数 据 库 存储 
的 数据 几乎 是 随机 的 。 


我 们 来 看 看 一 个 X-Brick 的 IOPS ( 见 图 2-26) : 


:100964KB 5E: 100k IOPS ° 


.50/504KB 读 / 写 : 150k IOPS ° 


.100%4KB 读 : 250k IOPS ° 


One X-Brick (6U) Two X-Bricks (12U) Four X-Bricks (22U) 
150k IOPS* 300k IOPS* 600k IOPS* 
250k IOPS^ 500k IOPS^ IM IOPS^ 


[2-26 XtremIOT t BE 


如 果 是 2 个 或 更 多 X-Brick 级 联 ， 性 能 线性 增长 ， 前 面 的 数值 翻 儿 倍 
束 可 以 了 。 


有 一 点 必须 得 强调 ， 上 面 说 的 这 个 性 能 看 起 来 一 般 ， 但 是 要 知 
道 ， 这 可 是 实际 使 用 的 性 能 ， 而 且 不 是 空 副 拿 来 跑 跑 的 性 能 ， 而 古 全 
盘 写 了 至 少 80% 之 后 的 性 能 。 为 什么 要 写 至 少 80% 才 能 测 得 真正 的 性 
能 ?因为 空 盘 写 不 会 触发 垃圾 回收 ， 当 用 户 占 满 了 整个 市 沉 ， 且 盘 快 
写 满 的 时 候 ， 垃 圾 回收 才 开 始 工作 ， 此 时 用 户 能 分 到 的 市 宽 吏 少 了 ， 
性 能 目 然 下 降 。 而 我 们 关 了 弄 ， 肯 定 很 快 会 写 很 多 数据 ， 所 以 只 有 快 
E Y ZAR GS 


2.63 ”软件 架构 


存储 行业 发 展 到 今天 ， 人 硬件 越 来 越 标 准 化 ， 所 以 已 经 很 难 徘 硬 件 
出 彩 了 。 若 能 够 制造 存 储 发 片 ， 例 如 三 星 这 种 模式 ， 从 懈 层 开始 都 目 
己 做 ， 则 可 靠 巨大 的 出 货 量 坐 收 硬 件 的 利润 。 但 这 种 模式 投资 巨大 ， 
一 般 人 玩 不 来 ， 只 能 靠 软 件 走 差异 化 了 ， 而 且 软 件 还 有 一 个 硬件 没有 
的 优势 : 非 标准 化 。 比 如 IBM 的 软件 很 多 是 基于 目 己 的 UNIX 系 统 开发 
0 
念 不 能 随便 冒 。 


看 了 前 面 的 XtremIO (XIO) 硬件 架构 之 后 ， 不 少 人 可 能 觉得 并 没 
有 什么 复杂 的 ， 基 本 上 束 生 系统 集成 、 组 闭 机 呆 。 但 是 ， 全 内 存 阵列 
的 核心 在 软件 ， 软 件 做 好 了 ， 才 能 让 用 户 体验 到 闪存 阵列 的 性 能 。 试 
想 ， 如 果 iPhone 闭 的 是 Android 系 统 ， 你 还 会 排队 花 五 六 千 元 去 买 吗 ? 
售 计 连 两 三 干部 省 不 得 了 吧 | 


aramiielm 


[2-27 ” 装 了 Android 的 iPhone 
1.XIO 软 件 几 大 杀 器 


:去 重 : 提升 性 能 ， 同 时 因为 写 放 大 降低 ， 延 长 了 内 存 的 夺 命 ， 提 
高 了 可 靠 性 。 


"Thin Provisioning: 分 区 的 容量 可 以 随 着 使 用 而 目 动 增长 (直到 用 
满 阵 列 ) ， 这 样 天 键 时 刻 不 会 影响 性 能 。 


镜像: 先进 的 镜像 架构 保证 了 容量 和 性 能 不 会 受 损 。 

.XDP 数 据 保 护 : 用 RAID6 保 护 数据 。 

-VAAI 集 成 : 后 面 解释 这 是 个 什么 。 
2.XIO 软 件 核心 设计 思想 


1) 一 切 为 了 随机 性 能 : 任何 节点 上 访问 任意 数据 块 ， 都 不 会 增加 
额外 的 成 本 ， 即 必须 公平 访问 所 有 的 资源 。 这 是 为 什么 ? 这 样 的 结 采 
忠 古 即使 太 点 增加 ， 性 能 也 能 够 线性 增长 ， 扩 展 性 也 好 。 


2) 尽 可 能 减少 写 放 大 : 要 知道 ， 对 SSD 来 讲 写 放 大 不 仅 会 导致 寿 
命 缩 短 ， 还 会 因为 内 存 的 探 写 次 数 升 高 ， 导 致 质量 下 降 ， 数 据 可 靠 性 
下 降 。XIO 的 设计 目标 束 是 让 后 全 实际 写 入 的 数据 尽量 少 ， 起 到 一 种 
TIUS EUR TE] o 


3) 不 做 全 局 垃圾 回收 : XIO 使 用 的 是 SSD 阵 列 ， 而 SSD 内 部 是 有 
高 性 能 企业 级 控制 器 芯片 的 ， 当 前 的 SSD 主 控 都 非常 强大 ， 垃 圾 回收 
效率 很 高 ， 所 以 XIO 并 没有 再 重复 做 一 遍 垃 圾 回收 。 这 样 做 的 效果 是 
降低 了 写 放 大 ， 毕 竟 后 台 搬 移 的 数据 量 少 了 ， 同 时 ， 节 省 出 时 间 和 系 
统 资源 提供 给 其 他 软件 功能 、 数 据 服务 和 VAAI 等 。 


4) 按照 内 容 存放 数据 : 数据 存放 的 地 址 用 数据 内 容 生 成 ， 跟 逻辑 
地 址 无 天 。 这 样 数据 可 以 存放 在 任何 位 置 ， 提 升 随机 性 能 ， 同 时 还 可 
以 针对 SSD 做 各 种 优化 。 数 据 可 以 平均 放置 在 整个 系统 中 。 


5) True Active/Active 数 据 访问 LUN 没 有 所 有 者 一 说 ， 所 有 节点 
都 可 以 为 任何 卷 服 务 ， 这 样 就 不 会 因为 某 一 个 节点 出 问题 而 使 性 能 受 


ihi 


6) 扩展 性 好 : 性 能 、 容 量 等 都 可 以 线性 扩展 。 


3.XIO 软 件 为 什么 运行 在 Linux 用 户 态 ? 


XtremlO 
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图 2-28 ”XIO 软 件 架 构 


如 图 2-28 所 示 ，XIO 的 全 闪存 阵列 软件 架构 ，XIO OS 和 XIO 的 软 
件 都 运行 在 Linux 的 用 户 态 ， 这 样 有 什么 好 处 呢 ? 我 们 知道 ，Linux 系 
统 分 为 内 核 态 和 用 户 态 ， 我 们 的 应 用 程序 都 在 用 户 态 运行 ， 各 种 硬件 
接口 等 系统 资源 都 通过 内 核 态 管理 ， 用 户 态 通过 system call 访 问 内 核资 
源 。XIO 软 件 运 行 在 用 户 态 有 JU hs. 


-避免 了 内 核 态 的 进程 切换 ， 速 度 快 。 


不 需要 借助 各 种 内 核 接口 ， 以 及 复 洒 的 内 存 管 理 和 有 异 
HEADER o 


:不 必 受 到 GPL 的 约束 。Linux 是 开源 系统 ， 程 序 在 内 核 运 行 必 然 要 
用 到 内 核 代码 ， 按 照 GPL 的 规定 ， 就 得 开源 ， 在 用 户 态 自己 开发 的 应 
用 就 不 受 此 限制 。 这 种 商业 性 软件 ， 里 面 很 多 东西 都 是 公司 花 了 很 多 
心血 开发 的 核心 技术 ， 开 源 了 就 太 不 值 了 。 由 此 也 可 以 看 出 软件 对 全 
内 存 阵列 的 价值 ! 开源 了 还 能 卖 那 么 贵 吗 ? 或 者 说 开源 了 ， 谁 都 可 以 
装 一 个 开源 软件 ， 全 闪存 阵列 就 只 能 打 价 格 战 了 ， 高 科技 


在 每 个 CPU 上 运行 着 一 个 XIOS 程 序 ，X-ENV， 如 果 你 敲 一 
下 “top” 命 令 ， 束 会 发 现 这 个 程序 掌控 所 有 的 CPU 和 内 存 资源 。 为 什么 
这 么 做 ? 


第 一 个 作用 就 是 为 了 XIO 能 100% 使 用 硬件 资源 ， 能 够 运筹 帷 幅 之 
中 ， 决 胜 千 里 之 外 。 知 道 目 己 赚 多 少 钱 ， 才 能 想 请 条 该 怎么 化 。 


第 二 个 作用 是 不 给 其 他 进程 影响 XIO 性 能 的 机 会 ， 你 证 性 能 的 稳 
AE. ? 


第 三 个 作用 是 提供 了 一 种 可 能 性 : 未 来 可 以 简单 修改 就 移植 到 
UNIX 或 者 Windows 平 台 ， 或 者 从 X86CPU 移 植 到 ARM、PowerPC 等 
CPU 架构 ， 因 为 这 都 是 上 层 程 序 ， 不 涉及 底层 接口 。 


XIO 是 完全 脱离 了 硬件 的 软件 ， 为 什么 这 么 说 ? 因为 他 们 被 EMC 
收购 之 后 ， 很 快 就 从 自己 的 人 硬件 架构 切换 到 了 EMC 的 白 盒 标准 硬件 架 
构 ， 说 明 其 软件 基本 不 受 硬 件 限制 。 而 且 ，XIO 的 硬件 基本 没有 自己 
特殊 的 组 件 ， 不 包含 FPGA， 没 有 自己 开发 的 芯片 、SSD 卡 、 固 件 等 ， 
用 的 都 是 标准 件 。 这 样 做 的 好 处 是 可 以 使 用 最 新 、 最 强大 的 X86 便 
件 ， 还 有 最 新 的 互联 技术 ， 比 如 比 Infiniband 更 快 的 技术 。 如 果 自 己 开 
发 了 专用 的 硬件 ， 要 跟着 CPU 一 起 升级 就 很 麻烦 了 ， 总 是 会 慢 一 拍 。 


其 至，XIO 完 全 可 以 只 卖 软件 ， 只 不 过 目前 EMC 没 这 么 干 而 已 。 
现在 是 硬件 、 软 件 、EMC 客 户 服务 一 起 卖 。 没 准 哪 天 ， 硬 件 不 赚钱 
了 ，EMC 了 就 只 卖 XIO 软 件 了 ° 


2.54 工作 流程 


1.6 大 模块 


XIO 软 件 分 为 6 个 模块 ， 以 实现 复杂 的 功能 ， 其 中 包括 三 个 数据 模 
块 R、C、D， 三 个 控制 模块 p、M、L。 


P (Platform, FERH) : 监控 系统 硬件 ， 每 个 节点 有 个 P 模 块 在 
运行 。 

.M (Management， 管 理 模块 ) : 实现 各 种 系统 配置 。 通 过 和 XMS 
管理 服务 器 通信 来 执行 任务 ， 比 如 创建 卷 、LUN 的 掩 码 等 从 命令 行 或 
图 形 界 面 发 过 来 的 指令 。 有 一 个 和 点 运行 M 模 块 ， 其 他 节点 运行 另 一 
个 备用 M 模 块 。 


工 〈Cluster， 集 群 模块 ) : 管理 集群 成 员 ， 每 个 节点 运行 一 个 L 模 
ER o 


‘R (Routing, 路 由 模块 ) : 
-其实 束 是 把 发 过 来 的 SCSI 命 令 翻译 成 XIO 内 部 的 命令 。 


:负责 来 自 两 个 FC 和 两 个 1SCSI 接 口 的 命令 ， 是 每 个 节点 的 出 入 
LH «Sr EXT o 


-把 所 有 读 写 数据 拆 成 4KB 大 小 。 
计算 每 个 4KB 数 据 的 Hash 值 ， 用 的 是 SHA-1 算 法 。 
每 个 太后 运行 一 个 R 模 块 。 
C (Control， 控 制 模 块 ) : 
:包含 了 一 个 映射 表 : A2H (数据 块 逻 辑 地 址 
具备 镜像 、 去 重 、 目 动 扩容 等 高 级 数据 服务 。 


Hash 值 ) 。 


D (Data， 数 据 模块 ) : 

.包含 了 另 一 个 映射 表 : H2P ( ) 。 
可 见 ， 数 据 的 存放 地 址 跟 逻 辑 地 址 无 关 ， 只 跟 数 据 有 关 ， 因 为 hash 值 是 
通过 数据 算出 来 的 。 


负责 对 SSD 的 读 


.负责 RAID 数 据 保护 技术 一 XDP (XtremIO Data Protection) 
2. 读 流程 
读 流 程 如 下 : 


1) 主机 把 读 命 令 通 过 FC 或 iSCSI 接口 发 送 给 R 模 块 ， 命 令 包含 数据 
块 逻 辑 地 址 和 大 小 。 


2) RR 模块 把 命令 拆 成 4KB 大 小 的 数据 块 ， 转 发 给 C 模 块 。 

3) C 模 块 查 A2H 表 ， 得 到 数据 块 的 Hash 值 ， 转 发 给 D 模 块 。 

4) DD 模块 碍 H2P 表 ， 得 到 数据 块 在 SSD 中 的 物理 地 址 ， 读 出 来 。 
3. 不 重复 的 写 流程 

不 重复 的 写 流 程 如 下 〈 见 图 2-29) : 


1) 主机 把 写 命令 通过 FC 或 iSCSI 接口 发 送 给 R 模 块 ， 命 令 包含 数据 
块 逻 辑 地 址 和 大 小 。 


2) R 模 块 把 命令 拆 成 4KB 大 小 的 数据 块 ， 计 算出 Hash 值 ， 转 发 给 C 


模块 


à 3) C 模 块 发 现 Hash 值 没有 重复 ， 所 以 插入 目 己 的 表 ， 转 发 给 D 模 


4) D 模 块 给 数据 块 分 配 SSD 中 的 物理 地 址 ， 写 下 去 。 


1) Host 通过 iSCSI 或 FC 接口 发 写 命 令 


R-Module 2) R 模块 把 命令 拆 成 4KB 数据 块 ， 选 择 C 模块 。 
,~ "Write Hash H5" 计算 AKB 块 的 哈 希 值 


Address 
Hash 


3) C 模块 把 Hash 值 写 入 有 映射 表 


D-Module 4) D 模块 把 Hash 值 分 配给 物理 地 址 了 下 
Hash HI H2 H3 H4 H5 


Adres [4| [€] P! |i] —- 
Address ian" 


Ref Count SAU. 


“、、5 ) AKB 块 被 写 信 物理 块 E 


SSD — "4 


Physical 
B C D BE 


Address 


b pe 


图 2-29 不 重复 的 写 流程 


4. 可 去 重 的 写 流程 
可 去 重 的 写 流程 如 下 ( 见 图 2-30) 


1) Host 通过 iSCSI 或 FC 接口 发 写 命令 
R-Module 2) R 模块 把 数据 拆 成 4KB 数据 块 ， 选 择 C 模块 
"Write data with Hash H2". 计算 4KB 数据 块 的 Hash ffi H2 


C-Module 
Address 0 1] 


2 0 4x5 $6 
ma (m| [ee] [m 


D-Module' 
Hash HI H2 H3, 


Koch f. € 4) 数据 重复 ， 不 需要 写 。 哈 希 值 H2 的 次 数 加 到 2 


3) C 模块 查 有 映射 表 发 现 Hash 值 H2 已 经 在 地 址 4 


Ref Count 


Physical 


Address | * 5) 没有 SSD HA 
Data 4K 


图 2-30 PEENE E 


1) 主机 把 写 命令 通过 FC 或 iSCSI 接口 发 送 给 R 模 块 ， 命 令 包含 数据 
块 逻 辑 地 址 和 大 小 。 
"x R 模 块 把 命令 拆 成 4KB 大 小 的 数据 块 ， 计 算出 Hash 值 ， 转 发 给 C 
E o 

3) C 模 块 查 A2H 表 (估计 还 有 个 H2A 表 ， 或 者 是 个 树 、Hash 数 组 
之 类 ) ， 发 现 有 重复 ， 转 发 给 DD 模块 。 


4) DD 模块 知道 数据 块 有 重复 ， 就 不 写 了 ， 只 是 把 数据 块 的 引用 数 
[1 » 


"IUE, BS AU Sen BAIE), TAX 
We] YE ^ SEE TER o 


dii 18] DA RUE T UFR inode K MSSR, A 
很 简单 ， 只 需要 两 个 逻辑 块 对 应 到 一 个 物理 块 就 可 以 了 ， 并 不 需要 读 


出 来 再 写 下 去 。 要 知道 自从 全 内 存 阵列 有 了 去 重 功能 之 后 ， 复 制 这 个 
基本 的 文件 操作 竟然 如 此 简单 : 没有 数据 搬移 ， 仪 仅 是 某 几 个 计数 登 
记 一 下 而 已 。 下 面 我 们 细 细 道 来 。 

5.ESXi 和 VAAI 

首先 我 们 来 解释 一 下 ESXi 和 VAAI 两 个 名 词 。 

VMware 的 虚拟 化 产品 ， 束 个 人 、 小 企业 而 言 ， 有 Workstation ` 
ESXi (vSphere, kK) ^ VMware Server. (免费 版 ) 可 以 选择 ， 
Workstation 和 VMware Server 需 要 装 在 操作 系统 (如 Windows 或 Linux) 
上 ，ESXi 则 内 骸 在 操作 系统 中 。 所 以 ESXi 可 以 看 成 是 虚拟 机 平台 ， 上 
面 运行 着 很 多 虚拟 机 。 


VAAI (vStorage APIs for Array Integration). 是 虚拟 化 领域 的 标准 语 
言 之 一 ， 其 实 就 是 ESXi 等 发 送 命令 的 协议 。 


6. 复 制 流程 
图 2-31 所 示 古 复制 前 的 数据 状态 。 
复制 流程 ( 见 图 2-32) 如 下 : 
1) ESXi 上 的 虚拟 主机 用 VAAI 语 言 发 了 一 个 虚拟 机 (VM) 复制 的 


命令 o 


s 


" 2) R 模 块 通过 iSCSI 或 FC 收 到 了 命令 ， 并 选择 一 个 C 模 块 执行 复 
l| o 


3) C 模 块 解析 出 命令 内 容 ， 把 原来 VM 的 地 址 范围 0~6 复 制 到 新 的 
地 址 7~D， 并 把 结果 发 送 给 D 模 块 。 


4) DD 模块 查询 Hash 表 ， 发 现 数 据 是 重复 的 ， 所 以 没 写 数据 ， 只 把 
引用 数 增加 1 。 


这 样 复 制 完成 了 ， 没 有 真正 的 SSD 读 写 。 


不 过 有 个 问题 是 ， 这 些 元 数据 操作 都 是 在 内 存 中 完成 的 ， 那 万 一 
突然 挥 电 了 怎么 办 ? XIO 设 计 了 一 套 非 常 复杂 的 日 志 机 制 : 通过 RDMA 


把 元 数据 的 改动 发 送 到 远 端 控制 器 节点 ， 使 用 XDP 技 术 把 元 数据 更 新 
D s o XIO 的 元 数据 管理 是 非 钊 复杂 的 ， 前 面 讲 的 泊 程 只 是 简 
IFEA j 
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图 2-31 复制 前 的 数据 状态 


1) ESXi Host 通过 VAAI 做 VM 复制 
R-Module 2) 
“Copy a VM” 


bw * —— 
Address 0 3 ) C 模块 只 是 复制 了 地 址 0 一 6 


hr Wi 
ma [w[ [eee [e]ps] pepepe] [«] "^"^ 


D-Module 
Hash HI H2 H3 H4 
Physical 
Address 


R 模块 选择 C 模块 复制 地 址 0 一 6 


Ref Count 


图 2-32 复制 流程 


由 于 使 用 了 A2H、H2P 两 张 表 ， 数 据 可 以 写 到 SSD 阵 列 的 任何 一 个 
地 方 ， 因 为 只 跟 数 据 的 Hash 有 关 ， 跟 逻辑 地 址 没关系 。 


最 近 网 友 们 在 热 追 中 国 高 铁 十 三 五 规划 ， 尤 其 是 福建 到 台北 的 海 
的 高 铁 更 是 令 人 震撼 。 短 短 十 多 年 的 时 间 ， 中 国 居然 成 为 了 世界 第 一 
高 铁 大 国 ， 乘 坐 高 铁 成 为 了 大 家 城市 间 出 行 的 第 一 选择 。 那 为 什么 中 
国 这 么 热衷 于 建设 高 铁 呢 ? 


人 多 ! 束 是 因为 中 国人 口 众多 ， 而 且 稠密 ， 基 本 集中 在 东部 地 
区 ， 比 如 京 沪 线 ， 普 通 铁路 的 运力 根本 无 法 满足 这 么 多 人 的 需求 ， 飞 
机 也 没 办 法 拉 完 这 么 多 人 。 高 铁 速 度 快 ， 自然 单位 时 间 内 能 运载 更 多 
的 人 ， 交 通 效率 更 高 。 


在 存储 领域 也 是 这 个 道理 ， 全 闪存 阵列 底层 采用 了 闪存 ， 所 以 速 
BART, 73 T PARRIN INE, 上 层 的 通信 也 需要 非常 高 效 。 下 面 
揭秘 XIO 全 闪存 阵列 的 内 部 通信 
7. 回 顾 R、C、D 模 块 


前 文 介绍 了 R、C、D 三 个 数据 相关 的 模块 。 


可 以 看 出 ，R 和 上 层 打 交道 ，C 是 中 间 层 ，D 和 底层 SSD 打 区 道 
记 住 这 个 就 可 以 了 。 


首先 要 搞 清 楚 的 是 ， i 
前 面 说 过 ，1 个 X-Brick 的 控制 服务 器 有 2 个 CPU， 每 个 CPU 运行 一 
XIOS 软 件 。 如 图 2-33 所 示 ，R、C 模 块 运行 在 一 个 CPU 上 ， DIS d 


3j —^ CPU. 上。 为 什么 要 这 么 做 呢 ? 


同一 节点 R、C、D 通信 X-Brick 1 


图 2-33 义 -Brick 内 部 互联 图 


因为 Intel Sandy Bridge CPU 集 成 了 PCIe 控 制 器 (Sandy Bridge 企 业 
版 CPU 集成 了 PCIe 3.0 接 口 ， 不 需要 通过 南 桥 转 接 ) 。 所 以 ， 在 多 CPU 
的 架构 中 ， 让 设备 直 连 CPU 的 PCIe 接 口 ， 性 能 就 会 很 高 ， 而 R、C、D 
的 分 布 也 是 按照 这 个 需求 来 设计 的 。 o 例如 SAS 转 接 卡 插 到 了 CPU 2 的 
PCIe 插 横 上， 所 以 DD 模块 就 要 运行 在 CPU 2 上 ， 这 样 性 能 才能 达到 最 
优 。 从 这 里 ， 我 们 又 可 以 看 出 XIO 的 架构 上 的 优点 ， 就 是 软件 完全 可 以 


按照 标准 化 硬件 来 配置 ， 通 过 布局 达到 最 优 的 性 能 。 如 采 CPU 的 分 布 
变化 了 ， 也 会 根据 新 的 架构 简单 调整 软件 分 布 来 提升 性 能 。 


8. 模 块 间 通信 : 扩展 性 极 佳 


我 们 再 来 说 说 正题 : 模块 间 如 何 通信 ? 其 实 并 不 要 求 模块 必须 在 
同一 个 CPU 上 ， 束 像 图 2-33 所 示 一 样 ，R 和 C 并 不 一 定 要 在 一 个 CPU 上 
才 行 。 所 有 模块 之 间 的 通信 通过 Infiniband 实 现 ， 数 据 通路 使 用 
RDMA， 控 制 通路 通过 RPC 实 现 。 


我 们 来 看 看 通信 的 时 间 成 本 : XIO 的 IO 总 共 延 时 是 600~700hs， 其 
中 Imfiniband 只 占 了 7~16hs。 使 用 mmfiniband 来 互联 的 优点 是 什么 ? 其 实 
还 是 为 了 扩展 性 ，X-Brick 即 使 增加 ， 延 迟 也 不 会 增加 ， 因 为 通信 路 径 
没 变 化 。 任 意 两 个 模块 之 间 还 是 通过 Infiniband 通 信 ， 如 果 系 统 里 面 有 
很 多 R、C、DD 模 块 ， 当 一 个 4KB 数 据 块 发 到 一 个 前 端 R 模 块 上 ， 它 会 计 
算 Hash 值 ，Hash 会 随机 落 在 任意 一 个 C 上 ， 没 有 谁 特殊 。 这 样 一 切 都 是 
线性 的 ，X-Brick 的 增 减 会 线性 地 导致 性 能 增 减 。 


2.6.5 ”应 用 场景 


内 存 价格 现 阶 段 还 是 比较 昂贵 的 ， 尤 其 是 企业 级 应 用 使 用 的 
eMLC 或 SLC， 所 以 全 闪存 阵列 XtremIO 并 不 能 取代 大 容量 的 存储 阵列 
SAN。 那 它 跟 哪 种 应 用 场景 比较 般配 呢 ? 想 想 就 知道 了 ， 闪 存 的 优势 
就 是 延迟 低 、 性 能 高 ， 所 以 适用 于 容量 要 求 不 高 ， 但 是 要 求 延 迟 低 、 
高 IOPS 的 应 用 ， 比 如 VDI (虚拟 桌面 基础 架构 ， 就 是 虚拟 机 ) 、 数 据 
库 、SAP 等 企业 应 用 。 


数据 库 是 非常 受益 的 ， 为 什么 ? 首先 是 性 能 高 ， 其 次 就 是 复制 几 
乎 不 占 空间 ， 所 以 用 户 可 以 很 方便 、 人 快速 地 为 数据 创建 多 个 副本 。 


已 经 有 人 在 一 个 X-Brick 上 运行 了 2500~3500 个 VDI 虚 拟 机 ， 而 延 
述 在 lms 以 内 。 虚 拟 机 很 多 数据 也 是 重复 的 ， 毕 竟 每 个 系统 的 文件 都 
差不多 ， 所 以 去 重 也 能 发 挥 很 大 作用 。 


企业 应 用 领域 也 有 人 使 用 XIO 加 速 了 关键 应 用 。 
总 之 ， 只 要 容量 足够 ， 那 你 的 应 用 用 起 来 肯定 比 以 前 快 多 了 ! 


看 完了 整个 全 闪存 阵列 XIO 的 技术 揭秘 ， 我 们 发 现 其 实 XIO 的 核 
心 还 是 在 软件 ， 因 为 硬件 都 是 标准 件 ， 都 是 X86 服务 器 、SAS 接 口 的 
SSD。AEFA 到 搬 有 什么 独特 的 地 方 呢 ? 


相 比 SSD， 它 没有 垃圾 回收 、Wear Leveling ` Read Disturb 等 传统 
SSD 的 功能 ， 因 为 这 些 都 在 SSD 里 面 由 主 探 搞 定 了 。 


相 比 传统 阵列 ， 它 的 特色 是 去 重 和 RAID 6 每 次 写 到 新 的 地 址 的 功 


AB 
H5 ? 


以 前 可 能 你 也 不 知道 全 闪存 阵列 到 底 是 怎么 弄 的 ， 看 完了 这 一 
， 相 信 你 已 经 不 觉得 它 神秘 了 。 甚 至 可 以 这 样 看 : UAE AAN 
存世 片 和 控制 器 封装 ，SSD 是 很 多 U 盘 的 阵列 ， 全 闪存 阵列 是 很 多 SSD 
的 阵列 ， 只 不 过 U 梧 是 最 差 的 内存 ，SSD 好 一 点 ，AFA 用 得 更 好 。 但 
就 是 一 次 质变 ， 应 用 场景 也 各 不 相同 ， 软 硬件 架构 要 
新 设计 。 


2.7 RD RERI IS] GS R8 2 


黑 科 技 年 年 有 ， 今 年 尤其 多 。 比 如 Google 的 机 器 学 习 处 理 器 TPU 
2.0， 人 性 能 直接 震惊 了 深度 学 习 界 打 把 子 NVIDIA。 本 来 GPU 只 是 耗 电 
厉害 ， 性 能 在 通用 方面 还 能 称霸 ， 没 想到 TPU 来 了 之 后 ， 一 下 子 GPU 
性 能 被 比 下 去 了 ， 功 耗 还 是 TPU 的 好 几 倍 。 这 也 从 一 个 侧面 告诉 我 
们 ， 专 用 ASIC 和 FPGA 等 可 定制 逻辑 的 深度 学 习 计算 平台 才 是 未 来 的 
发 展 方向 ， 因 为 它们 有 很 大 的 潜力 可 以 挖掘 ， 通 过 架构 的 不 断 创 新 ， 
未 来 能 达到 的 性 能 会 很 高 。 


我 们 都 知道 ， 现 在 是 一 个 数据 爆炸 的 时 代 ， 一 方面 手机 、 平 板 等 

各 种 移动 设备 在 产生 大 量 用 户 数 据 ， 男 一 方面 如 布 全 世界 的 各 种 传 感 

絮 ， 比 如 摄像 尖 、 无 人 营 驶 汽车 的 各 种 探头 等 每 天 痢 在 产生 海量 视频 

数据 ， 视 频 和 图 像 才 是 信息 时 代数 据 的 大 头 。 举 个 例子 ， 一 辆 无 人 区 
| 


文 撑 起 这 一 巨大 数据 网 络 的 根基 是 IT 基础 设施 ， 主 要 包括 网 络 、 
计算 和 存储 三 大 部 分 。 


图 2-34 IT 基础 架构 


IT 基础 絮 构 的 功能 惑 跟 加 工 贸易 差不多 ， 网 络 生 数据 的 搬运 工 ， 
计算 是 数据 的 加 工商 ， 存 储 就 是 数据 的 宽 。 现 在 ， 网 络 已 经 非常 高 速 
了 ， 家 里 百 兆 视 带 都 很 常见 ， 手 机 用 4G 也 能 看 看 小 电影 。 以 前 ， 存 储 
征 个 脐 烦 事 ， 想 想 当 年 360 开 机 助手 每 次 提醒 的 电脑 开机 时 间 有 多 人 入， 
机 械 硬 盘 马 达到 隆隆 转 个 不 停 ， 读 数据 还 慢 修 你 。 


但 是 ， 自 从 有 了 固态 硬盘 之 后 ， 存 储 就 不 是 事 儿 了， 最 新 的 PCIe 
3.0x8SSD， 读 写 带 宽 能 达到 4GB/s 以 上 ! 一 方面 存储 进步 快 ， 而 另 一 
方面 CPUX 受 摩尔 定律 失效 限制 ， 工 艺 进 展 缓慢 ， 所 以 ， 计 算 成 了 尊 
颈 ， 尤 其 是 在 图 像 和 视频 处 理 、 深 度 学 习 等 方面 。 海 量 数据 能 够 从 
PCIe SSD 高 速 读 写 ， 但 就 是 CPU 处 理 不 过 来 。 


那么 ， 把 存储 和 计算 结合 起 来 是 不 是 束 可 以 解决 这 个 痛 点 呢 ? 位 
于 中 国 上 海 的 一 家 公司 方 一 信息 科技 推出 了 一 款 黑 科技 产品 ， 带 
FPGA 的 SSD 一 一 CFS (Computing Flash System， 计 算 闪 存 系统 ) ° È 
采用 PCIe 3.0x8 高 速 接 口 ， 性 能 可 达 5GB/s。SSD 提 供 高 速 数 据 存储 ， 
FPGA 能 提供 计算 加 速 ， 这 样 数据 从 SSD 出 来 就 由 FPGA 顺 市 算 好 ， 释 
放 了 CPU。 一 切 回 归 原 位 ，CPU 做 控制 ，FPGA 做 计算 ，SSD 做 存储 。 


那么 ， 这 个 东西 有 什么 用 处 呢 ? 它 的 优势 主要 体现 在 海量 数据 高 
速 存储 和 人 工 智能 计算 方面 。 想 一 想 就 会 有 很 多 场景 ， 比 如 无 人 和 芍 驶 
汽车 ， 目 前 一 般 的 无 人 芍 台 汽车 配备 了 毫米 波 雷 达 、 激 光 雷 达 、 高 速 
摄像 头等 各 类 传感器 。 每 秒 会 产生 1GB 数 据 ， 要 分 析 这 么 多 数据 需要 
强大 的 计算 能 力 。 很 多 无 人 区 驶 汽车 还 在 使 用 GPU 进行 计算 。 目 前 市 
场 上 在 卖 的 一 个 CPU+GPU 计 算 盒 ， 功 耗 能 达到 5000W， 对 于 汽车 来 
说 ， 这 个 小 火 钢 的 散热 会 带 来 很 大 的 安全 风险 ， 同 时 也 很 耗 电 。 但 
是 ， 如 果 换 用 了 FPGA 方 案 ， 功 耗 就 可 以 降下 来 ， 根 据 无 人 区 驶 的 应 
用 场景 对 算法 进行 优化 之 后 ， 计 算 性 能 也 能 满足 需求 。 例 如 ， 奥 迪 公 
司 的 无 人 敬 驶 汽车 就 采用 了 FPGA 计 算 平台 。 这 些 传感器 产生 的 数据 
目前 都 是 丢掉 ， 非 常 可 惜 ， 未 来 商用 之 后 ， 不 管 是 政府 还 是 三 商都 有 
存储 至 贵 的 行驶 数据 并 备份 到 云端 的 需求 。 这 些 数据 对 于 完善 无 人 区 
驶 、 分 析 王 祸 现场 都 非常 有 用 。 要 保存 这 些 数据 ， 只 有 PCIe SSD 才 能 
达到 1GB/s 以 上 的 写 速 度 。 所 以 ，FPGA SSD 一 方面 能 够 快速 存储 行驶 
数据 ， 一 方面 又 可 以 提供 FPGA 进 行 数据 分 析 ， 完 美满 足 无 人 芍 驶 的 
计算 与 存储 需求 。 
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WALETA, 用 了 CFS， 束 可 以 直接 用 FPGA 里 的 人 工 智能 硬件 算 
A ola E eE 


可 能 有 人 要 问 ，FPGA 和 内 存心 片 中 国 还 不 能 国产 。 其 实 ，FPGA 
中 国 已 经 有 很 多 国产 厂商 在 做 ， 并 达到 主流 性 能 ， 而 闪存 芯片 长 江 存 
储 在 2018 年 束 有 布 望 量 产 供 贷 了 。 


第 3 章 ”SSD 存 储 介 质 : 闪存 


读者 君 知道 ， 你 一 边 吃 着 地 铁 口 刚 买 的 杂粮 前 饼 ， 一 边 噶 读 的 这 
本 书 是 负责 SSDFans 微 信 公 众 号 的 几 位 作者 倾 力 合 闭 的 ， 其 中 阿 采 负 
责 撰 写 的 就 古 内 存 这 一 章 。 有 一 个 名 人 说 过 ， 书 能 传 昼 ， 当 你 看 书 的 
时 候 ， 阿 采 也 阅 到 了 杂粮 襄 饼 那 浓 浓 的 蕙 香味 儿 。 


3.31 内存 物理 结构 


3.1.1 NERE 


前 文 已 经 讲 过 了 固态 硬盘 的 发 展 史 ， 曾 经 的 固态 人 硬盘 有 过 RAM 等 
介质 ， 但 是 目前 绝 大 多 数 固态 硬盘 都 是 以 闪存 芯片 为 存储 介质 的 。 
DRAM 国 态 硬盘 我 们 见得 少 主要 应 用 于 特殊 的 场合 。1978 年 诞生 的 
世界 上 第 一 块 固态 硬盘 就 是 基于 DRAM 的 。 但 由 于 保存 在 DRAM 中 的 
数据 有 掉 电 易 失 性 ， 当 然 还 有 成 本 因素 ， 所 以 现在 的 固态 硬盘 一 般 都 
不 采用 DRAM， 而 是 使 用 内 存 作为 存储 介质 ， 并 且 是 NAND 闪 存 。 固 
态 便 盘 的 工作 原理 很 多 也 都 是 基于 闪存 特性 的 。 比如 ， 闪 存在 写 之 前 
必须 先 擦 除 ， 不 能 覆盖 写 ， 于 是 固态 硬盘 才 需 要 垃圾 回收 (Garbage 
Collection， 或 者 叫 Recycle) ; 闪存 每 个 块 (Block) 擦 写 次 数 达 到 一 定 
值 后 ， 这 个 块 要 么 变 成 坏 块 ， 要 么 存储 在 上 面 的 数据 不 可 靠 ， 所 以 固 
态 硬 盘 固 件 必 须 做 磨损 平衡 ， 让 数据 平均 写 在 所 有 块 上 ， 而 不 是 盯 着 
几 个 块 拼命 写 〈 不 然 很 快 固态 硬盘 就 报废 了 ) 。 还 有 很 多 类 似 的 例 
子 ， 固 态 便 盘 内 部 很 多 算法 都 是 在 为 内 存 服务 的 。 所 以 ， 欲 攻 固 态 硬 

A, NEE HHE o 

内 存 是 一 种 非 易 失 性 存储 器 ， 也 就 是 说 ， 掉 电 了 数据 也 不 会 丢 
失 。 闪 存 基本 存储 单元 (Cel). 是 一 种 类 NMOS 的 双 层 浮 栅 (Floating 
Gate) MOS 管 ， 如 图 3-1 所 示 。 
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图 3-1 FAE 


在 源 极 (Source) 和 漏 极 (Drain) 之 间 电 流 单 向 传导 的 半导体 上 
形成 存储 电子 的 浮 栅 ， 泽 概 上 下 被 绝缘 层 包 围 ， 存 储 在 里 面 的 电子 不 
会 因为 挥 电 而 消失 ， 所 以 内 存 古 非 易 失 性 存储 髓 。 


写 操作 是 在 控制 极 加 正 电压 ， 使 电子 通过 绝缘 层 进入 浮 栅 极 。 欣 
人 
3-2 T7 ° 


K3-2 Zr: 写 原理 ; A: 擦 除 原 理 


在 2014 年 的 内 存 峰 会 上 ， 浮 栅 唱 体 管 的 发 明 人 施 敏 (DrSimon 
Sze) 被 授予 终身 成 就 奖 ， 以 表彰 他 发 明了 浮 栅 极 晶 体 管 。 据 说 ， 浮 机 
极品 体 管 的 发 明 灵 感 是 这 样 来 的 : 某 天 ， 施 敏和 搭档 Dawon Kahng 在 公 
REEF, WERA EKEN o FAKER, AiE 
想 ， 如 果 在 MOS 场 效应 管 中 间 加 个 东西 ， 会 怎样 呢 ? TÆ, mA 
管 横 空 出 世 。 和 截至 2014 年 的 某 个 时 间 点 ， 据 统计 ， 全 世界 生产 的 浮 栅 
晶体 管 数 目 达 1074344929692350000000 ° 


这 个 数字 还 在 继续 增长 春 。 阿 用 觉得 终 呈 成 驶 天 不 够 ， 施 敏 应 该 
获得 诺 贝 尔 奖 ， 毕 竟 机 械 硬 盘 机 理 一 一 巨 磁 阻 效应 的 发 现 人 已 经 获得 
了 诺 贝 尔 次 。 
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3.1.2 SLC ^ MLCAITLC 


一 个 存储 单元 存储 lbit 数 据 的 闪存， 我 们 叫 它 为 SLC (Single Level 
Cell) ， 存 储 2bit 数 据 的 闪存 为 MLC (Multiple Level Cell) ， 存 储 3bit 数 
据 的 内 存 为 TLC (Triple Level Cell) ， 如 表 3-1 所 示 。 现 在 已 经 有 厂商 
在 研发 RLC， 即 一 个 存储 单元 存储 4bit 数 据 ， 本 书 不 做 介绍 。 


表 3-1 SLC、MLC、TLC 原 理 


对 SLC 来 说 ， 一 个 存储 单元 存储 两 种 状态 ， 浮 顶 极 里 面 的 电子 多 于 
某 个 参考 值 的 时 候 ， 我 们 把 它 采 样 为 0， 否 则 整 判 为 1。 


图 3-3 是 内 存心 片 里 面 存 铺 单 元 的 国 值 电压 分 布 范 数 ， 槛 轴 是 国 值 
电压 ， 纵 轴 走 存储 单元 数量 。 其 实在 0 或 1 的 时 候 ， 并 非 所 有 的 存 人 铺 单 
元 都 是 同样 的 国 值 电压 ， 而 是 以 这 个 电 庄 为 中 心 的 一 个 分 布 。 读 的 时 
候 采 样 电压 值 落 在 1 范围 里 面 ， 就 认为 是 1; 落 在 0 范围 里 面 ， 就 认为 是 
0 ? 
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图 3-3 SLC 电压 分 布 


擦 除 之 后 ， 内 存 读 出 来 的 值 为 1， 充 过 电 之 后 ， 就 是 9。 所以， 如 
果 需 要 写 1， 束 什么 都 不 用 干 ， 写 0， 束 需要 充电 到 0 。 


对 MLC 来 说 ， 如 果 一 个 存储 单元 存储 4 个 状态 ， 那么 它 只 能 存储 
2bit 的 数据 ， 如 图 3-4 所 示 。 通 俗 来 说 就 是 把 浮 栅 极 里 面 的 电子 个 数 进 
行 一 个 划分 ， 比 如 低 于 10 个 电子 判 为 0 11 一 20 个 电子 判 为 1 2130 
个 电子 判 为 2， 多 于 30 个 电子 判 为 3。 


2 bit/cell 


tt of cells 


图 3-4 MLC 电 压 分 布 


依 此 类 推 ，TLC 若 是 一 个 存储 单元 有 8 个 状态 ， 那 么 它 可 以 存储 
3bit 的 数据 ， 它 在 MLC 的 基础 上 对 浮 顶 极 里 面 的 电子 数 又 进一步 进行 了 
划分 ， 如 图 3-5 所 示 。 


3 bit/cell 
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图 3-5 TLC 电压 分 布 


同样 面积 的 一 个 存储 单元 ，SLC、MLC 和 TLC 分 别 可 以 存储 1bit、 
2bit、3bit 的 数据 ， 所 以 在 同样 面积 的 DIE 上 ， 闪 存 容量 依次 变 大 。 


但 同时 ， 一 个 存储 单元 电子 划分 得 越 多 ， 那 么 在 写 入 的 时 候 ， 控 
制 进入 浮 栅 极 的 电子 个 数 就 要 越 精 细 ， 所 以 写 耗 费 的 时 间 就 越 长 ; 同 
样 的 ， 读 的 时 候 ， 需 要 党 试用 不 同 的 参考 电压 去 读 取 ， 一 定 程 度 上 加 
长 了 读 取 时 间 。 所 以 我 们 会 看 到 在 性 能 上 ，TLC 不 如 MLC，MLC 不 如 
SLC ° 


Zof cells 


如 表 3-2 所 示 是 SLC、MLC 和 TLC 在 性 能 和 寿命 (Endurance) 上 的 
一 个 直观 对 比 〈 不 同 制程 和 不 同 厂 家 的 闪存 ， 参 数 不 尽 相同 ， 数 据 仅 
供 参 考 ) 。 
表 3-2 SLC、MLC、TLC 参 数 比较 
擦 写 次 数 约 5000 次 擦 除 时 间 Cus) 
| “3D TLC 还 渐 成 为 主流 。 同 时 ，QLC 也 蕊 上 要 量 产 了 ， 每 个 存储 里 
元 存储 4bit 数 据 ， 比 TLC 还 要 慢 ， 还 要 不 可 靠 。 之 前 怀疑 TLC 可 靠 性 的 


人 人 人们， 怎么 看 QLC? 


3.4.3. [AV fot Hr RT 


m 内 存心 片 吏 是 由 成 王 上 万 这 样 的 存储 单元 按照 一 定 的 组 织 结构 组 


图 3-6 所 示 是 一 个 内 存 块 (Block) 的 组 织 架 构 。 一 个 Wordline 对 应 
着 一 个 或 大 和 干 个 Page， 具 体 是 多 少 取 决 于 是 SLC、MLC 或 者 TLC。 对 
SLC 来 说 ， 一 个 Wordline 对 应 一 个 Page; MLC 则 对 应 2 个 Page， 这 两 个 
Page 是 一 对 (Lower Page 和 Upper Page) ; TLC 对 应 3 个 Page (Lower 
Page ` Upper Page 和 Extra Page， 不 同 内 存 三 家 叫 法 不 一 样 ) 。 一 个 
Page 有 多 大 ， 那 么 Wordline 上 面 葡 有 多 少 个 存储 单元 ， 束 有 多 少 个 
Bitline。 一 个 Block 当 中 的 所 有 这 些 存储 单元 都 是 共用 一 个 讨 故 的 。 
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图 3-6 “闪存 Block 组 织 架构 


这 里 没有 考虑 奇 / 便 Bitine， 人 否则 一 个 Wordline 上 的 Page 数 量 在 此 基 
础 上 要 翻 倍 。 


一 个 内 存 内 部 的 存储 组 织 结构 如 图 3-7 所 示 : 一 个 内 存心 片 有 若干 
个 DIE (或 者 叫 LUN) ， 每 个 DIE 有 若干 个 Plane， 每 个 Plane 有 若干 个 
Block， 每 个 Block 有 若干 个 Page， 每 个 Page 对 应 着 一 个 Wordline， 
Wordline 由 成 千 上 万 个 存储 单元 构成 。 
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图 3-7 ”闪存 内 部 组 织 架 构 


DIELUN 是 接收 和 执行 闪存 命 令 的 基本 单元 。 如 图 3-7 所 示 ， 
LUN0 和 LUN1 可 以 同时 接收 和 执行 不 同 的 命令 (但 还 是 有 一 定 限制 
的 ， 不 同 三 家 的 闪存 限制 不 同 ) 。 但 在 一 个 LUN 当 中 ， 一 次 只 能 独立 


执行 一 个 命令 ， 你 不 能 对 其 中 茶 个 Page 写 的 同时 ， 又 对 其 他 Page 进 行 
读 访 问 。 


一 个 LUN 叉 分 为 奉 干 个 Plane， 市 面 上 常见 的 是 1 个 或 者 2 个 Plane， 
现在 也 有 4 个 Plane 的 内 存 了 。 每 个 Plane 都 有 自己 独立 的 Cache Register 
和 Page Register， 其 大 小 等 于 一 个 Page 的 大 小 。 固 态 硬盘 主 探 在 写 某 个 
Page 的 时 候 ， 移 把 数据 从 主 探 传输 到 该 Page 所 对 应 Plane 的 Cache 
Register 当 中 ， 然 后 再 把 整个 Cache Register 当 中 的 数据 写 到 闪存 阵列 ; 
读 的 时 候 则 相反 ， 先 把 这 个 Page 的 数据 从 闪存 介质 读 取 到 Cache 
Register， 然 后 再 按 需 传 给 主 控 。 这 里 按 需 是 什么 意思 ? WES IX 
数据 的 时 候 ， 没 有 必要 把 整个 Page 的 数据 都 传 给 主 控 ， 而 是 按 需 选择 
数据 传输 。 但 要 记 住 ， 无 论 是 从 闪存 介 质 读数 据 到 Cache Register, 3^ 
是 把 Cache Register 的 数据 写 入 闪存 介质 ， 都 以 Page 为 单位 ， 如 图 3-8 所 
示 (不 过 有 些 内 存 支 持 partial program/read， 这 不 在 讨论 之 列 ) 。 


正常 读 Cache 读 控制 器 E5 Cache 与 


Cache Register 
| Page Register 


图 3-8 Page 缓存 的 用 法 


为 什么 需要 Cache Register 和 Page Register T Zr? 主要 目的 是 优 
化 内 存 的 访问 速度 。 内 存 文 持 Cache 读 、 写 操作 ， 如 图 3-8 所 示 。Cache 
读 文 持 在 传输 前 一 个 Page 数 据 给 主 控 的 时 候 (Cache Register > € 
fà) ， 可 以 从 内 存 介质 读 取 下 一 个 主 控 需 要 读 的 Page 的 数据 到 Page 
Register (闪存 介质 Page Register) ， 这 样 数据 在 闪存 总 线 传输 的 时 间 


ai RT AREIRES TRIER (或 者 相反 ， 取 决 于 哪个 时 间 更 

K) ; Cache Program 也 是 如 此 ， 它 支持 闪存 写 前 一 个 Page 数 据 的 同时 
(Page Register 闪存 介质 ) ， 传 输 下 一 个 要 写 的 数据 到 Cache Register 
( 主 控 一 Cache Register) ， 这 样 数据 在 闪存 总 线 传输 可 以 隐藏 在 前 一 

个 Page 的 写 时 间 里 。 


当然 ， 有 了 两 个 Register 的 内 存 也 支持 正常 的 读 写 模 式 ， 这 时 候 ， 用 
F nf Dd Cache Register 和 Page Register 看 成 是 一 个 缓存 。 


我 们 通 弟 所 说 的 内 存 读 写 时 间 ， 并 不 包含 数据 从 内 存 到 主 控 之 间 
的 数据 传输 时 间 ， 也 不 包括 数据 在 Cache Register 和 Page Register 之 间 的 
传输 时 间 。 闪 存 写 入 时 间 是 指 一 个 Page 的 数据 从 Page Register 当 中 写 入 
内 存 介 质 的 时 间 ， 闪 存 读 取 时 间 是 指 一 个 Page 的 数据 从 闪存 介质 读 取 
到 Page Register 的 时 间 。 


内 存 一 般 都 支持 Multi-Plane (或 者 Dual-Plane) 操作 。 那 么 什么 是 
Multi-Plane 操 作 呢 ? 对 写 来 说 ， 主 控 先 把 数据 写 入 第 一 个 Plane 的 Cache 
Register 当 中 ， 数 据 保持 在 那里 ， 并 不 立即 写 入 内 存 介 质 ， 等 主 控 把 同 
一 个 LUN 上 的 另外 一 个 或 者 几 个 Plane 上 的 数据 传输 到 相应 的 Cache 
Register 当 中 ， 再 统一 写 入 闪存 介质 。 假 设 写 入 一 个 Page 的 时 间 为 
1.5ms， 传 输 一 个 Page 的 时 间 为 50hs: 如 果 按 原始 的 Single Plane 探 作 ， 
写 两 个 Page 需 要 至 少 〈1.5ms+50hs) x2; 但 如 果 按 照 Dual-Plane 操 作 ， 
由 于 隐藏 了 一 个 Page 的 写 入 时 间 ， 写 入 两 个 Page 只 要 1.5ms+50x2hs， 缩 
减 了 几乎 一 半 的 时 间 ， 写 入 速度 几乎 翻番 。 对 读 来 说 ， 使 用 Dual-Plane 
控 作 ， 两 个 不 同 Plane 上 的 Page 数 据 会 在 一 个 内 存 读 取 时 间 加 载 到 各 目 
的 Cache Register 当 中 ， 这 样 用 一 个 读 取 时 间 读 取 到 两 个 Page 的 数据 ， 
读 取 速度 加 快 。 假 设 读 取 时 间 和 数据 传输 时 间 相 当 ， 都 是 50hs，Single 
Plane 读 取 传 输 两 个 Page 需 要 50hsx4=200hs，Dual-Plane 则 需要 
50hsx2+50hs=150hs， 时 间 为 前 者 的 75%， 读 取 速 度 也 有 很 大 的 提升 。 


闪存 的 控 除 是 以 Block 为 单位 的 。 为 什么 呢 ? 那 是 因为 在 组 织 结构 
上 ， 一 个 Block 当 中 的 所 有 存储 单元 是 共用 一 个 衬 底 的 (Substrate) 。 
当 你 对 革 衬 底 施 加 强 电 压 ， 那 么 上 面 所 有 浮 栅 极 的 电子 都 会 被 吸出 
来 。 每 个 | 内存 Block 都 有 擦 写 次 数 的 限制 ， 这 个 最 大 擦 写 次 数 按 SLC、 
MLC、TLC 依 次 递减 :SLC 的 擦 写 次 数 可 达 10 万 次 ，MLC 一 般 为 几 千 
到 几 万 次 ，TLC 降 到 几 百 到 几 千 次 。 随 着 闪存 工艺 的 不 断 进步 (现在 
已 进入 1Xnm 时 代 ) ， 闪 存 容量 不 断 加 大 ， 但 性 能 与 可 靠 性 却 在 变 差 。 
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3.1.4. 读 、 写 、 氛 原理 


闪存 的 基本 操作 是 读 、 写 、 擦 。 下 面 来 具体 介绍 ， 各 种 参数 仅 供 
参考 (不 同 闪存 参数 不 同 ) 。 


1. 擦 除 


如 图 3-9 所 示 ， 探 除 前 ， 浮 机 上 有 可 能 有 电子 ，Pwell 加 20V 电 压 ， 
经 过 足够 时 间 后 ， 由 于 量子 隧道 效应 ， 电 子 从 浮 栅 到 沟 道里 面 ， 完 成 
一 个 Block 的 探 除 ， 靖 值 电 压 都 变 成 了 -Vr ， 状 态 为 “1”。 一 个 LUN 上 
的 MOS 管 共用 一 个 Pwell， 但 是 其 他 不 用 欣 除 的 Block 的 栅 极 电压 是 巧 
空 ， 不 会 有 隧道 效应 。 


Bitline 其 全 


SGD X: 


0V 
0V Pp 20V 


0V 


d, 
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图 3-9 擦 除 操作 电压 示例 
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anE3-10Brz, fEERGPUSGBJABILBHBELEA-V., ， 写 电压 如 
下 : 要 写 的 单元 Wordline 为 高 电压 ，Bitline=0V;， 由 于 量子 隧道 效应 ， 
电子 从 沟 道 到 浮 栅 ， 成 为 “0”。 不 写 的 单元 Bitline 为 2Y， 在 沟 道里 的 效 
应 阻碍 了 量子 隧道 效应 发 生 。 


3. 读 


不 读 的 Wordline=5V， 管 子 保 持 导 通 ; 要 读 的 单元 Wordline=0V，- 
V+ 的 管子 导 通 ，Bitline 并 的 传 感 妖 能 够 检测 到 ， 所 以 读 a 到 “1”， 而 经 
过 写 的 +VT 的 管子 不 导 通 ， 传 感 絮 读 为 “0”。 


Bitline 


SGD=2V 


$i: Wordline 


Fi 
19V 


] 


SGS-0V 


0V 0V 
图 3-10” 写 入 操作 电压 示例 


SGD-5V 


| 


5V 
Wordline | | 


SGS=5V 


0V 0V 
图 3-11 读 操 作 电压 示例 


3.15 三 维 闪 存 


因为 集成 密度 高 、 单 位 比特 成 本 低 和 可 靠 性 高 等 众多 优点 ， 内 存 
占据 了 手机 、 平 板 、 国 态 便 盘 等 绝 大 部 分 的 非 易 失 性 存储 市 场 。 可 是 
因为 技术 上 的 限制 ， 这 些 优 势 越 来 越 难 以 维持 下 去 。 


即使 2 次 曝光 技术 (Double Patterning Technology) 和 4 次 曝光 技术 
(Quadruple Patterning Technology) 的 引入 提高 了 制造 工艺 ， 但 随 着 
代 又 一 代 半 导体 制造 技术 的 演进 ， 二 维 平面 单元 尺寸 逐渐 减 小 ， 单 元 
间 的 相互 干扰 却 在 逐渐 增加 。 基 于 二 维 平面 单元 结构 的 尺寸 缩小 已 经 
无 法 进一步 降低 比特 成 本 了 ， 即 达到 了 技术 上 的 瓶颈 。 


图 3-12 为 过 去 十 年 的 单元 尺寸 与 单元 相互 干扰 的 变化 趋势 图 。 从 上 
半 部 分 可 以 看 出 ， 二 维 内 存单 元 扩 才 不断 下 降 ， 对 应 到 下 半 部 分 融 是 
单元 间 的 相互 干扰 不 断 增加 ， 但 到 了 三 维 内 存 后 ， 尺 寸 居 然 义 再 次 变 
大 了 ， 所 以 ， 单 元 间 相 互 干扰 大 幅度 减 小 。 


本 小 节 文 字 和 图 表 是 SSDFans 作 者 是 师 兄 整 理 自 论文 H.Kim,， 
S.J.Ahn, Y.G.Shin, K.Lee and E.Jung, “Evolution of NAND Flash 
Memory: From 2D to 3D as a Storage Market Leader, "2017IEEE 
International Memory Workshop (IMW) , Monterey, CA, 2017 ° 
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图 3-12 ”过 去 十 年 的 单元 尺寸 UE) 与 单元 相互 干扰 A) 的 变化 趋势 
为 了 克服 二 维 平面 单元 结构 的 技术 瓶 贷 ， 目 2006 年 以 来 ， 各 种 二 


维 内 存 结构 陆续 被 提出 来 。 其 中 一 种 叫 作 TCAT， 已 经 于 2013 年 开始 了 
规模 化 量 产 。 三 维 内 存 结构 并 不 是 利用 传统 的 缩小 单元 的 方法 ， 而 是 


以 提高 堆 释 栅 极 结构 (WL) 的 数目 来 提高 芯片 的 集成 密度 。 平 均 来 
看 ， 每 一 代 三 维 内 存 的 堆 著 栅 极 结构 的 数目 都 增长 了 40%， 这 意味 着 每 
一 代 单 元 尺寸 减 小 了 平均 40%。 因此， 三 维 闪 存 快速 地 把 二 维 内 存 挤 出 
了 市 场 ， 应 用 三 维 内 存 的 固态 硬盘 也 快速 地 蔡 代 了 存储 市 场 上 的 机 械 
硬盘 。 如 图 3-13 所 示 ， 根 据 iSuppli 的 调查 ， 固 态 硬 盘 在 内 存 市 场 的 份额 
从 2013 年 到 2017 年 ， 由 23% 增 长 到 了 43%。 
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图 3-13 ”固态 硬盘 在 内 存 市 场 的 份额 变化 


图 3-14 是 《Inside NAND Flash Memories》 一 书 提 供 的 某 一 类 三 维 
内 存 的 结构 示意 图 ， 在 这 种 三 维 内 存 中 ， 沟 道 是 坚 起 来 的 ， 一 层 一 层 
盖 楼 的 是 连接 到 栅 极 的 Wordline。 
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图 3-14 ”三维 内 存 立 体 图 


这 里 就 不 罗列 历史 上 三 维 闪存 的 发 展 事件 了 ， 只 把 关键 的 两 个 事 
件 点 出 来 。2007 年 ，BiCS (Bit Cost Scalable) 技术 (BE LHES 
层 结构 ) 被 提出 ;2009 年 ， 金 属 栅 极 三 维 内 存 技 术 (Terabit Cell Array 
Transistor, TCAT) 被 提出 来 。BiCS 和 TCAT 的 具体 对 比如 图 3-15 所 
示 。 其 中 ， 单 元 串 的 结构 、 单 元 堆 释 的 方式 、 编 程 / 擦 除 窗口 长 短 以 及 
的 除 方法 等 都 是 不 同 的 。BiCS 利 用 了 多 唱 硅 栅 极 ，TCAT 利 用 了 金属 栅 
极 ，BiCS 的 编程 / 擦 除 窗口 比较 罕 ， 而 TCAT 的 编程 / 擦 除 窗口 就 比较 
宽 ，BiCS 的 擦 除 方 法 是 GIDL， 而 TCAT 的 擦 除 方 法 是 群 擦 除 方法 
(Bulk Erase) 。 二 者 的 制造 工艺 流程 也 是 不 一 样 的 。 


与 二 维 平 面 内 存 相 比 ，TCAIT 更 加 稳定 、 可 菲 而 且 性 能 水 平 更 加 优 
越 。 如 图 3-16 所 示 ， 单 元 间 相互 干扰 降低 了 84%， 探 写 寿 命 却 提高 了 10 
倍 以 上 ， 编 程 时 间 (PROG) 也 减少 了 一 半 ， 阔 值 电压 Va 随 着 擦 写 增 
多 市 来 的 侦 移 也 减 小 了 679%。 


自从 24 层 堆 县 的 三 维 闪存 可 大 规模 生产 以 来 ，32 层 、48 层 及 64 层 
堆肥 的 三 维 闪 存 也 接连 投产 。 如 图 3-17 所 示 ， 三 维 闪 存 的 存储 密度 在 每 
一 代 几 乎 都 实现 了 翻 倍 。 


不 过 三 维 闪存 也 面临 下 面 两 个 挑战 : 


1) 堆 县 栅 极 层 数目 增加 带 来 的 问题 。 正如 前 面 所 说 ， 三 维 内 存 通 
过 增加 堆 受 栅 极 层 的 数目 来 提高 比特 密度 ， 而 且 每 一 代 堆 县 栅 极 层 数 
目 都 会 增加 30% 一 509%， 这 会 带 来 许多 困难 ， 比 如 串 电流 的 减 小 ， 高 层 
与 低层 单元 特征 的 差异 性 增 大 。 


单元 串 结构 


ru 


Cell Stack SONOS (Poly-Si Gate) TANOS (Metal Gate) 
Poly-Si (High Rs) W (Low Rs) 
Narrow (SONOS) Wide (TANOS) 
Bulk Erase 


Sin/Oxide depo. 


Poly (Gate)/Oxide depo. Ch. Hole etch 
l l 
Ch. Hole etch Ch. Poly depo. 
EZ i + 
Gate stack SIN removal 
1 * 
Ch. Poly depo. Gate stack depo. 
W (Gate) depo. 
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3D NAND Initial 
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图 3-16 ”二 维 闪 存 和 TCAT 三 维 闪存 特性 对 比 


具体 地 来 讲 ， 如 图 3-18 所 示 ， 随 着 堆 县 栅 极 层 数目 的 增加 ， 每 个 
Block 的 Page 数 目 不 断 增加 。 在 读 的 过 程 中 ， 对 一 个 Block 来 说 ， 累 积 的 
读 取 数目 增加 ， 导 致 读 干 扰 会 变 严 重 。 为 了 降低 读 和 干扰， 需要 降低 读 


参考 电压 Viead ， 这 样 束 会 导致 串 电流 减 小 ， 使 得 提供 给 传 感 运 放 的 信 
号 更 微弱 。 
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图 3-17 三 维 内 存 存储 密度 增长 图 


"RB PC (A.U) 


48 64 
WL E 
图 3-18 EB E, PEAD, RKA 


U3 
N 


24 


如 图 3-19 所 示 ， 高 层 与 低层 之 间 的 单元 会 存在 差异 。 通 道 孔 的 矿 才 
大 小 和 栅 极 厚度 也 存在 差异 ， 这 些 结构 上 的 差异 会 带 来 编程 / 擦 除 速度 
的 差异 、 单 元 间 干 扰 的 差异 以 及 数据 保存 的 差异 等 。 
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Ch. Hole CD (A.U) 
图 3-19 ”高 层 和 底层 单元 差异 


底层 单元 的 通道 也 小， 所 以 耦合 率 更 高 ， 探 写 速度 更 快 。 但 是 ， 
底层 单元 的 栅 极 更 湾 ， 所 以 数据 保存 期 更 短 。 


2) 单元 模具 厚度 减 小 带 来 的 问题 。 跟 二 维 内 存 类 似 ， 随 着 工艺 一 
代 一 代 送 代 ， 最 小 尺寸 也 在 不 断 减 小 ， 所 以 单元 模具 厚度 不 断 减 小 ， 
单元 间 的 干扰 也 得 到 了 增强 。 


3.1.6 Charge Trap™ [^] f£ 


这 里 说 的 CT， 不 是 医院 里 面 的 CT， 而 是 闪存 的 一 种 技术 一 一 
Charge Trap。 最 近 流 行 一 句 话 “生活 不 只 是 眼前 的 苘 且 ， 还 有 诗 和 远 
方 ”。 套 用 一 下 ， 闪 存 不 只 有 Floating Gate， 还 有 Charge Trap。 中 文 可 
以 翻译 成 电 阱 ，CT 像 个 陷阱 一 样 ， 把 电 蓓 困 在 里 面 存 起 来 。 


施 人 敏和 他 的 搭档 在 MOSFET 中 间 加 了 一 个 浮 顶 极 ， 创 造 了 闪存 的 


历史 。 此 后 有 牛人 在 想 ， 你 中 间 加 的 是 浮 栅 极 ， 是 导体 ， 那 我 换个 绝 
RREA? 于 是 ，CT 技 术 的 品 体 管 诞 生 了 ， 如 图 3-20 所 示 。 


控制 栅 极 
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图 3-20 浮 栅 晶 体 管 与 CT 品 体 管 对 比 


漏 极 


CT 与 浮 怖 最 大 的 不 同 是 存储 电 傈 的 元 素 不同 ， 后 着 羡 用 导体 存储 
Et, TUBE EH dE (Trap) 密度 的 绝缘 材料 (一 般 为 氮 化 
硅 ，SI3N4) 来 存储 电荷 。CIT 的 绝缘 材料 上 面 就 像 布 了 很 多 陷阱 ， 电 
子 一 旦 陷入 其 中 ， 就 难以 逃 胶 ， 而 浮 机 是 导体 材料 ， 电 子 可 以 在 里 面 
目 由 移动 。 有 人 是 这 样 来 形容 两 者 区 别 的 : 浮 栅 就 像 水 ， 电 子 可 在 里 
而 CT 束 像 是 奶酪， 电子 在 里 面 移动 古 非 常 困难 的 ， 如 图 
3-21 所 示 。 
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衬 底 (NES 
图 3-21 浮 栅 像 水 ，CT 就 像 奶 酷 
为 什么 要 强调 电子 不 容易 移动 ? 


要 知道 ， 浮 栅 晶 体 管 对 浮 栅 极 下 面 的 绝缘 层 很 人 敏感， 该 氧化 物 厚 
度 变 薄 (制程 不 断 减 小 导致 的 ) 或 者 老化 (Degradation, $855 73 E 
T) ， 浮 栅 极 里 面 存储 的 电子 进出 变 得 容易 。 浮 栅 极 里 面 的 电子 可 以 
自由 移动 ， 因 此 对 氧化 层 变 得 敏感 。 如 果 里 面 的 电子 本 来 就 深 陷 其 
中 ， 行 动 困 难 ， 即 使 绝缘 层 老 化 ， 电 子 还 是 不 容易 出 来 。 因 此 ， 相 对 
浮 机 晶体 管 来 说 ，CT 的 一 个 优势 就 是 : 对 隧道 氧化 层 不 敏感 ， 当 厚度 
变 注 或 者 擦 除 导致 老化 时 ，CT 表 示 压 力 不 大 。 


浮 机 晶体 管 的 浮 权 极 材料 是 导体 ， 任 何 两 个 彼此 绝缘 且 相 隅 很 近 
的 导体 间 都 会 构成 一 个 电容 器 。 因 此 ， 任 何 两 个 存储 单元 的 浮 李 极 都 
构成 一 个 电容 右 ， 一 个 浮 桶 极 里 面 电 人 答 的 变化 部 会 引起 别 的 存储 单元 
译 情 极 电 傈 的 变化 。 


一 个 浮 栅 极 与 其 附近 的 浮 栅 极 之 间 ， 都 存在 耦合 电容 ( 见 图 3- 
22) ， 这 个 电容 大 小 与 彼此 之 间距 离 成 反比 : 距离 越 短 ， 电 容 越 大 ， 
彼此 影响 越 大 (回想 一 下 初中 物理 知识 ， 平 板 电 容器 电容 公式 
C=eS/4nkd， 其 中 d 就 是 平板 之 间距 离 ) 。 随 着 闪存 制程 减 小 ， 存 储 单 
元 之 间 影 响 越 来 越 大 。 因 此 ， 存 储 单 元 间距 也 是 影响 制程 继续 往 前 的 
mis MM E ESL EE EIEE 
, ^ ? 


Bitline 


s 加 ie Wordline 


图 3-22 浮 栅 晶体 管 之 间 耦 合 电容 
与 浮 机 晶体 管 相 比 ，CT 擦 写 电 压 可 以 更 小 。 为 什么 ? 


CT 和 浮 栅 晶体 管 对 比 图 如 图 3-23 所 示 ， 虽 然 这 只 是 个 示意 图 ， 但 
CT 实际 上 确实 比 浮 机 晶体 管 更 矮 ， 控制 极 到 衬 底 之 间 的 距离 短 。 因 
此 ， 要 产生 相同 的 隧道 电场 ， 加 在 控制 极 的 电压 可 以 更 小 (E=U/d) 。 
更 小 的 写 电压 ， 使 得 隧道 氧化 层 压 力 更 小 ， 因 此 绝缘 氧化 层 损 耗 也 
1g » 当然， 还 会 更 省 电 * 


CT 相 比 浮 栅 晶体 管 有 很 多 优势 ， 如 上 面 提 到 的 ， 对 隧道 氧化 层 要 
求 不 是 那么 奇 刻 ;， 更 小 的 存储 单元 间距 ; 隧道 氧化 层 磨损 更 慢 ; uc 
能 ;工艺 实现 容易 ;可 以 在 更 小 的 尺寸 上 实现 。 但 是 ，CT 也 不 能 完 
胜 。 在 Read Disturb 和 Data Retention 方 面 ，CT 闪 存 惑 不 如 浮 栅 极 闪存 。 


CT 技术 现在 主要 是 应 用 在 3D 闪 存 上 。 如 今 除 了 美光 使 用 浮 栅 极 技 
术 外 ， 其 他 主流 闪存 商家 都 是 用 CT 技术 来 制造 3D 闪 存 。 


Œ Blocking layer ZZ Gate 


E Interpoly diel. — ZZJ Control gate 


BH Tunnel [IT] Storage layer EH Tunnel Floating gate 
C Junction [123 Substrate C Junction Ps Substrate 
a) CT b) 浮 栅 品 体 管 


图 3-23 CT 和 浮 栅 品 体 管 对 比 


3.1.7 3D XPoint 


闪存 用 在 固态 硬盘 上 ， 使 用 SATA 接 口 ， 要 想 更 快 可 用 SAS 接 口 ， 
其 至 PCIe 接 口 。 其 实 最 快 的 还 是 DRAM， 可 以 支持 字 节 级 别 的 访问 ， 
但 是 DRAM 上 的 数据 如 果 不 通电 ， 马 上 就 末了。 所 以 现代 计算 机 同时 
使 用 DRAM 和 闪存 存储 数据 。 

最 新 的 Intel Haswell-E/Broadwell 处 理 器 兼容 的 DDR4 内 存 ， 读 写 速 
度 可 达 61GB/s 和 46GB/s， 而 一 个 通道 的 PCIe SSD 在 理论 上 最 高 只 能 到 
1GB/s (PCIe 3.0) 或 者 0.5GB/s (PCIe 2.0) ， 一 般 SSD 用 4 个 通道 ， 就 
是 4GB/s 或 2GB/s。 更 慢 的 SATA 理 论 上 最 高 是 600MB/s。 


当然 ， 机 械 硬 熏 就 非常 慢 了 ， 西 部 数据 的 VelociRaptor 机 械 硬 熏 顺 
序 读 写 速 度 分 别 为 215MB/s 和 140MB/s。 


所 以 ， 尽 管 PCIe SSD 相 比 机 械 硬 盘 快 20 多 倍 ，DDR4 却 是 它 的 十 几 
倍 。 最 好 是 能 找到 和 DRAM 速 度 一 样 ， 数 据 却 不 会 因 掉 电 而 丢失 的 存 
储 器 。 江 湖上 有 这 么 多 自称 有 才 的 大 侠 : 

忆 阻 器 : ReRAM; 

` 铁 电 存储 器 : FeRAM; 

JRSHRAM: MRAM; 

. 相 变 存 储 器 : PRAM, PCM; 

-导电 桥接 RAM: cbRAM， 又 称 可 编程 金属 元 存储 磺 PMC; 

.SONOS RAM: Silicon-Oxide-Nitride-Oxide-Silicon; 

-导电 金属 氧化 物 存储 器 : CMOx -° 


图 3-24 所 示 是 各 种 新 型 存储 器 的 容量 成 长 之 路 ， 目 前 比较 成 熟 的 是 
相 变 存储 器 PCM_ PRAM ° 


Intel 的 好 友 Micron 一 直 以 来 在 PCM 上 花 了 很 多 钱 ，2013 年 宣布 实 
现 了 量 产 。Micron 还 把 PRAM 用 到 了 诺基亚 的 Asha 手 机 里 面 ，1Gb 的 容 
E, 写 速 度 高 达 400MB/As o 不 过 诺基亚 手机 的 新 东家 微软 说 ，Micron 的 
PCM 工 艺 还 不 够 成 熟 ， 决 定 研 发 下 一 代 PCM 技 术 ， 降 低 功 耗 和 成 本 ， 
提高 性 能 。 
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图 3-24 ”新 型 存储 器 容量 增长 


所 谓 的 相 变 存储 器 ， 就 是 在 原子 级 别 发 生 了 相 变 ， 利 用 这 个 来 存 
储 数据 。 惑 像 是 玻璃 经 过 相 变 成 了 晶体。 这 还 是 很 好 理解 的 ， 想 想 我 
们 最 常见 的 水 ， 液 体 的 时 候 形状 不 定 ， 但 是 温度 降低 后 ， 就 发 生 相 
变 ， 成 为 了 固体 一 一 委 ， 和 雪 就 是 晶体 ， 有 着 稳定 的 前 体 结构 。 如 图 3-25 
所 示 ， 左 边 是 玻璃 态 ， 右 边 是 晶体 态 ， 明 显 ， 蝇 体态 更 整 并 。 
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图 3-25” 相 变 晶 体 原 理 


物理 原理 讲 完了 ， 下 面 开 始 讲 电 气 原理 。 不 像 DRAM 里 面 有 晶体 
管 ，PCM 其 实 是 通过 一 种 微小 的 电阻 作用 使 得 玻璃 融化 ， 相 变 为 品 
体 。 技 术 日 新 月 异 ， 现 在 人 类 已 经 能 高 效 地 控制 这 种 物理 作用 了 ， 
经 写 需 要 几 微 秒 ， 读 需要 几 纳 秒 ， 现 在 PCM 已 经 能 到 皮 秒 的 量 级 了 ， 
也 就 是 纳 秒 的 1000 分 之 一 ， 即 10-22 秒 。 


来 看 看 PCM 和 和 和音 见 存储 絮 的 对 比 。 表 3-3 中 PCM 的 数据 还 在 优化 ， 
最 狐 的 俐 件 读 写 速 度 比 表格 里 面 快 多 了 ， 里 面 的 速度 不 是 尽 线 数据 传 


输 速度 ， 而 是 存储 介质 的 读 写 速度 。 这 个 表格 的 数据 比较 日 ， 主 要 还 
亏 在 功 耗 、 夺 命 、 功 能 等 方面 进行 比较 。 可 以 看 出 ，PCM 的 
Je B BUSTA 
“可 以 按照 子 市 访问 |; 
软件 商 单 ; 
` 写 之 前 不 需要 擦 除 操作 ; 
- 功 耗 低 ， 和 闪存 差不多 ; 


33-3 ” 几 种 存储 器 特性 对 比 


简单 
| | hn 
T MB/s | 13 ~ 30KB/s >10MBA =100MBA 


Intel 开 发 的 相 变 存储 器 使 用 了 硫 属 化 物 (Chalcogenides) ， 这 类 材 
料 包 含 元 素 周 期 表 中 的 氧 / 硫 族 元 素 。Numonyx 的 相 变 存储 絮 使 用 一 种 
GT BB MARME (Ge2Sb2Te5) ， 多 被 称 为 GST。 现 今 大 多 数 
公司 在 研究 和 发 展 相 变 存 储 器 时 都 使 用 GST 或 近似 的 相关 合成 材料 。 


如 图 3-26 所 示 ，GST 材 料 随 着 温度 的 上 升 ， 2 边 的 无 定形 仿 
转变 为 石 边 的 规则 晶体 结构 ， 而 电阻 率 也 不 断 下 降 。 这 还 是 很 好 理解 
的 ， 越 有 规则 ， 导 电 性 能 束 越 好 ， 电 阻 越 小 。 但 古 ， 降 温 的 过 程 中 电 
阻 值 却 不 是 可 逆 的 ， 是 底下 那 条 直线 。 有 半导体 经 验 的 人 马上 就 明白 


T, de E XDECE RUE IRRIA, UAR. A 
两 个 不 可 逆 的 稳定 状态 。 这 种 相 变 材料 恰好 有 这 种 特性 ， 所 以 束 能 用 
来 表示 1 和 0 了， 也 就 能 存储 数据 了 。 
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图 3-26”GST 材 料 状态 随 温度 变化 图 


图 3-27 所 示 是 一 个 PCM 存 储 单元 ， 读 的 时 候 我 们 只 要 测量 GST 上 面 
金属 世 点 的 电压 就 知道 了 ， 品 体态 时 电阻 低 、 电 压低 ， 无 定形 态 时 电 
阻 高 、 电 压 高 。 其 实测 电阻 就 是 测 电压 ， 假 如 夺 部 接地 ， 那 么 低 阻 时 
顶点 电压 低 (和 底部 导 通 ) ， 可 以 表示 “0”， 高 阻 时 隔断 ， 顶 点 电压 
高 ， 可 以 表示 “1”。 

MEEA? 图 3-27 所 示 中 ， 柱 子 天 是 加 热 右 ， 通 过 电流 之 后 加 


热 GST， 导 致 它 发 生 相 变 ， 不 过 在 不 同 的 温度 下 ， 经 过 一 定时 间 ， 相 
变 的 结果 不 一 样 。 如 图 3-28 所 示 ， 高 温 Tm 下 短 脉冲 加 热 从 晶体 态 变 成 


无 定形 态 ， 较 高 温 Tx 长 脉冲 加 热 时 从 无 定形 态 变 成 晶体 态 。 图 3-29 所 
示 是 读 写 的 温度 时 间 控制 波形 。 


IU 
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图 3-27 PCM 存 储 单元 


HER] 
图 3-28 不 同 温度 脉冲 对 相 变 的 影响 


我 们 知道 闪存 里 面 有 Bitline 和 WordLine， 通 过 这 两 个 组 成 的 矩阵 来 
管理 上 亿 个 存储 单元 。 图 3-30 所 示 是 PCM 的 Bitline 和 WordLine 结 构 ， 通 
过 两 条 线 可 以 精确 控制 每 一 个 单元 。 写 的 时 候 控 制 电 流 的 大 小 来 加 热 
完成 相 变 ， 读 的 时 候 通 过 测量 Bitline 的 电压 值 就 能 知道 是 低 阻 还 是 高 
阻 ， 从 而 获得 0、1 值 。 


要 了 解 更 多 ， 请 查看 Numonyx 公 司 Greg Atwood 写 的 论文 《Phase 
Change Memory: Development Progress and System Opportunities》 和 
dailytech 网 站 上 Jason Mick 写 的 博客 《Exclusive: If Intel and 
Micron's"Xpoint"is 3D Phase Change Memory, Boy Did They Patent 
It) ^ 
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图 3-29 ” 读 写 操作 通过 温度 时 间 控 制 完 成 功能 
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图 3-30 “PCM 组 织 结构 


3.2 ”闪存 实 成 指南 


3.2.1 异步 时 序 


闪存 接口 有 同步 异步 之 分 ， 一 般 来 说 ， 异 步 传输 速率 慢 ， 同 步 传 
输 速 率 快 。 异 步 接口 没有 时 钟 ， 每 个 数据 读 由 一 次 RE_n 信 和 号 触发 ， 每 
个 数据 写 由 一 次 WE_n 信 号 触发 。 同 步 接口 有 一 个 时 钟 信号 ， 数 据 读 写 
和 时 钟 同步 。 


我 们 先 来 看 看 ONFI2.3 协 议 规定 的 一 个 典型 的 内 存 芯 片 管 脚 图 ( 见 
图 3-31) 。 这 个 必 片 对 外 输出 数据 位 宽 为 8bit，Ssync 是 同步 ，Async 是 


异步 。 

比较 一 下 两 种 接口 下 的 管 脚 定义 ， 大 部 分 都 是 一 样 的， 区 别 就 是 
表 3-4 中 所 示 的 四 类 信号 。 后 面 我 们 看 看 同步 和 异步 的 时 序 就 能 了 解 为 
什么 这 些 信号 不 一 样 了 。 


先 来 看 看 异步 数据 写 入 的 时 序 图 ( 见 图 3-32) 。 


Ssync Async Async Ssync 
R R 1 48 VssQ VssQ 
Vpp Vpp = 2 O 47 R R 
VDDi VDDi [| 和 46 R R 
RB3n RB3n O 4 45 R R 
R/B2 n R/B2 n H 5 44 107 DQ7 
RIB1n  RBin © 6 43 106 DQ6 
RIBÜn — R/BO n L—À 7 42 105 DQ5 
WRn REN 8 41 IO4 DQ4 
CEO n CEO n c 9 40 R R 
CE1_n CE1 n 10 z 39 VccQ VccQ 
R R C— 1 48-pin TSOP 38 VSP1 VSP1 
Vcc Vcc Li 12 37 Vcc Vcc 
Vss Vss EF 19 and 36 Vss Vss 
CE2n CE2n L—] 14 E 35 VSP2 DOS 
CE3 n CE3 n 15 48 pin WSOP 34 VccQ VccQ 
CLE CLE 16 33 [—3 R R 
ALE ALE 103 DQ3 
CLK WE n = 102 DQ2 
WP n WP. n 101 DQ1 
VSP3 VSP3 100 DQO 
ENi ENi R R 
ENo ENo C R R 
Vpp Vpp 一 一 R R 

R R VssQ VssQ 


图 3-31 NETA EHK 
表 3-4 同步 异步 管 脚 定 义 对 比 


图 3-32 ”异步 写 数 据 时 序 图 
上 图 中 有 5 个 信和 号: 
:CLE: Command Latch Enable，CLE 有 效 时 IOX 发 送 命 令 。 
:CE_n: Chip Enable， 这 个 信号 用 来 选 通 一 个 逻辑 上 的 必 睛 一 一 
Target。 为 什么 说 是 逻辑 上 的 芯片 ?因为 物理 芯片 里 面 封 装 了 很 多 
Target， 每 个 Target 都 是 完全 独立 的 ， 只 是 有 可 能 共享 数据 信号 ， 所 以 


通过 CE_n 来 选择 当前 数据 传输 的 是 哪个 Target， 业 内 一 般 把 Target 叫 作 
GE 


"WE n: Write Enable， 写 使 能 ， 这 个 信号 是 用 户 发 给 内 存 的 ， 有 
效 时 意味 着 用 户 发 过 来 的 写 数据 可 以 采样 了 。 


.ALE: Address Latch Enable，ALE 有 效 时 IOx 发 送 地 址 。 
IOx: 数据 总 线 。 

同时 有 很 多 时 间 参 数 ， 这 里 只 介绍 儿 个 关键 的 参数 : 
twp: WE_n 低 电 平 脉冲 的 宽度 。 


twH : WE_n 高 电 平 保持 时 间 o 


twc : tWP 人 与 {WH 合 起 来 一 个 周期 的 时 间 。 

tps: 数据 建立 时 间 ， 意 思 就 是 8bit 数 据 要 都 达到 稳定 状态 ， 最 多 
这 么 长 时 间 。 

tpH : 数据 稳定 时 间 ， 这 段 时 间 里 数据 信和 号 稳定 ， 可 以 来 采样 。 

这 样 我 们 来 看 上 面 的 时 序 图 ( 见 图 3-32) ， 数 据 写 入 的 时 候 ， 数 据 
总 线 不 能 传输 地 址 和 命令 ， 所 以 ALE 和 CLE 无 效 。 这 个 Target 有 数据 传 
输 ， 所 以 CE_n 有 效 。 每 一 个 WE_n 周 期 对 应 一 次 有 效 的 数据 传输 。 

再 来 看 看 图 3-33 所 示 的 异步 数据 读 出 时 序 ， 其 中 多 了 两 个 信号 。 

RE n: 读 使 能 。 这 个 信号 是 用 户 发 给 内 存 的 ， 每 发 一 个 读 使 能 ， 
内 存 束 在 数据 总 线 上 准备 好 数据 ， 等 用 户 采 样 ; 


.RMB_n: ReadwBusy。 闪 存 正在 进行 内 部 读 的 时 候 ，Busy_n 有 效 ， 
当 操 作 完 成 旦 数据 准备 好 之 后 ，Ready 有 效 ， 用 户 可 以 来 读 了 。 


所 以 ， 用 户 向 内 存 发 了 读 命令 之 后 ，Ready 信 号 拉 高 ， 意 味 着 数据 
准备 好 了 。 接 着 ， 用 户 发 RE_n 信 号 去 读数 据 ， 每 个 RE_n 周 期 ， 内 存 发 
送 一 个 有 效 数 据 到 数据 总 线 上 ， 供 用 户 采 样 ， 如 图 3-33 所 示 。 


3.22 ”同步 时 序 


同步 时 序 最 重要 的 两 个 信号 是 时 钟 CLK 和 DQS。 现 在 的 内 存 基本 
都 采用 了 DDR (Double Data Rate) 技术 ， 就 是 说 每 个 时 钟 周 期 传输 两 
拨 数 据 。 图 3-34 是 同步 模式 下 的 数据 写 入 时 序 图 ， 介 绍 一 下 几 个 信号 。 


-CLK: 时 钟 。 时 钟 信号 由 用 户 产 生 ， 在 时 钟 信号 的 上 升 沿 和 下 降 
沿 都 有 数据 被 触发 ， 实 现 DDR， 意 味 着 100MHz 的 时 钟 频率 数据 传输 速 
率 是 200MT/s。 


W/R n: Write/Read_n。 写 的 时 候 高 电 平 ， 读 的 时 候 低 电 平 。 

:DQS: Data Strobe。DQS 用 来 区 分 出 每 个 数据 传输 周期 ， 便 于 接 
收 方 准 确 接收 数据 。 读 数据 时 ，DQS 由 闪存 产 生 ，DQS 上 下 治 和 数据 
对 齐 。 写 数据 时 ，DQS 由 用 户 产 生 ，DQS 中 间 对 应 数据 的 中 间 稳 定 区 
域 。 所 以 ，DQS 可 以 看 成 数据 的 同步 信号 。 

:DQ[7: 0]: 数据 总 线 。 

我 们 再 来 看 看 几 个 关键 的 时 间 参 数 。 


cats: CLE、W/R_n 和 ALE 的 建立 时间。 


poss : 数据 输入 到 第 一 个 DQS 跳 变 沿 的 时 间 o 


W/R. n. 


MM 


SS | 


图 3-34 ”同步 写 数 据 时 序 图 


了 解 了 各 种 信号 和 时 间 参 数 ， 我 们 束 能 看 懂 上 面 的 数据 写 入 时 序 
图 。CLE 和 ALE 同 时 有 效 之 后 的 第 一 个 CLK 上 升 党， 数据 开始 准备 并 输 
出 。 经 过 tDQSS 时 间 后 ，DQS 开 始 跳 变 ， 并 且 跳 变 沿 位 于 DQ 数据 信号 
的 稳定 位 置 。 之 后 每 半 个 时 钟 周期 ， 输 出 一 组 数据 。 


再 来 看 看 下 面 的 读数 据 时 序 图 ( 见 图 3-35) ， 和 写 入 差不多 ， 只 不 
过 W/R_n 信 号 是 低 电 平 ， 同 时 DQS 跳 变 沿 和 数据 上 升 沿 同步 。 


kan stirt for next 
nan-idle cycle 


Data Transitioning ES] Device Driving 
图 3-35 ”同步 读数 据 时 序 图 


3.23 ”内存 命令 集 

固态 硬盘 主 控 是 通过 一 系列 内 存 命令 与 内 存 进行 通信 的 。 每 款 内 
存 蕊 片 都 定义 了 其 支持 的 命令 ， 以 ONFI 2.3 协 议 为 例 ， 它 定义 的 命令 如 
表 3-5 所 示 。 用 户 要 使 用 这 些 功 能 时 发 送 命 令 即 可 ， 比 如 读数 据 ， 就 发 
送 00h~30h， 不 过 具体 命令 时 序 和 使 用 方式 要 看 专门 的 定义 。 

下 面 介 绍 一 下 几 个 比较 常用 的 命令 : 

"Read: 00~-30h， 读 数据 。 读 一 个 Page 数 据 用 这 个 命令 。 


-Read Multi-plane: 00~-32h， 同 时 读 多 个 Plane 的 数据 。 多 个 Plane 
各 读 1 个 Page ° 


-Change Read Column: 05h~ 下 0h， 修 改 读 列 地 址 。Read 命 令 从 办 
存 介质 读 出 一 个 Page 的 数据 到 | 内 存心 片 里 面 的 缓存 ， 一 个 Page 一 般 是 
8KB 或 者 16KB， 但 是 用 户 不 一 定 需 要 所 有 数据 ， 所 以 通过 这 个 命令 来 
修改 传输 数据 的 偏 移 地 址 。 从 某 个 Page 内 偏 移 地 址 开始 进行 数据 传 


输 。 


.Block Erase: 60h~D0oh， 的 除 一 个 Block ° 


.Read Status: 70h， 和 查看 最 近 一 次 操作 的 结果 是 成 功 还 是 失败 。 


-Read Status Enhanced: 78h， 它 和 70h 有 什么 区 别 ? 它 是 用 在 Multi- 
LUN 控 作 的 状态 查看 ， 可 以 指定 查看 哪个 LUN 的 状态 。 


-Page Program: 80h~10h， 写 一 个 Page 数 据 。 


Page Program Multi-plane: 80h~11h， 同 时 写 多 个 Plane 的 数据 ， 
写 性 能 可 以 翻 儿 倍 。 

-Read ID: 90h， 可 以 读 到 在 JEDEC 注 册 的 Manufacturer ID 和 Device 
ID ° 


-Read Parameter Page: ECh， 可 以 读 到 这 个 CE 的 各 种 配置 参数 ， 比 
如 支持 ONFI 的 哪个 版 本 ， 是 否 支持 Multi-plane， 异 步 或 同步 时 序 模式 


年 哪 一 种 等 。 


-Get Features/Set Features: EEh/EFh， 这 两 个 命令 给 用 户 提 供 设 定 
一 些 参数 的 接口 ， 比 如 设置 同步 异步 或 者 选择 传输 速率 。 


表 3-5 HEMER 


8s 
Read Block Erase Multi-plane 
Read Multi-plane [o| oon | Read Status 

Copyback Read o| oo | Read Status Enhanced 
Change Read Column Page Program 


EL 


70h 
78h 
80h 10h 


[D 


Change Read Column Enhanced [o| om | Page Program Multi-plane 80h llh 
Read Cache Random [of oon | Page Cache Program 15h 
Read Cache Sequential o| 3h | Copyback Program 10h 
Read Cache End Lo | a | Multi-plane 85h llh 


[22] 


Block Erase Small Data Move 


Change Write Column Get Features 
Change Row Address o| ssh | Set Features 

Read ID Reset LUN 

Read Parameter Page Synchronous Reset 
Read Unique ID [o| ED | 
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3.24 ”闪存 寻 址 


了 解 基本 命令 的 时 序 之 前 ， 我 们 再 来 复习 一 下 内 存 内 部 的 结构 。 
图 3-36 所 示 是 一 个 Target， 就 是 我 之 前 说 的 一 个 可 以 独立 工作 的 逻辑 芯 
片 。 它 包含 2 个 LUN， 每 个 LUN 有 2 个 Plane， 每 个 Plane 有 很 多 Block， 
每 个 Block 又 有 很 多 Page。 


Biock 0 Block 1 Block 0 Block 1 


Block 2 Block 3 Block 2 Block 3 


Logical Unit 1 


o 
z 
E 
= 
T 
9 
3 


Block B Block B+1 Block B Block B+1 


Page Register Page Register Page Register Page Register 


Plane Plane Plane Plane 
Address 0 Address 1 Address 0 Address 1 


K3-36 ”闪存 内 部 架构 


为 了 访问 这 些 资源 ， 闪 存 里 面 使 用 了 行 地 址 (Row Address) 和 列 
地 址 (Column Address) 。 列 地 址 就 是 Page 内 部 的 偏 移 地 址 。ONEFI 协 


议 中 ， 行 地 址 的 定义 如 图 3-37 所 示 ， 从 高 位 到 低位 依次 为 LUN、Block 
和 Page 地 址 ， 至 于 具体 位 宽 ， 则 和 每 个 芯片 的 容量 有 关 。 


MSB LSB 


图 3-37 ”内 存 地 址 划分 


估计 你 要 开始 问 了 : Plane 在 哪里 ? 如 图 3-38 所 示 ，Plane 是 在 Block 
地 址 的 最 低位 。 ONFI 要 求 Multi-plane 探 作 的 时 候 ， 每 个 Plane 的 Page 地 
址 必须 相同 ，Block 地 址 不 同 的 内 存 要 求 不 一 样 。 比 如 Intel/Micron 和 东 
学 的 内 存 ， 在 Multi-plane 操 作 时 ， 可 以 是 不 同 的 Block， 但 古 三 星 的 内 
存 ， 要 求 儿 个 Plane 操 作 的 Block 地 址 要 相同 。 因 为 占 的 是 Block 地 址 的 
最 低 几 位 ， 所 以 进行 Multi-Plane 的 时 候 ，Plane 一 般 有 奇偶 之 分 。 


LUN Address 


MSB LSB 
LUN Address BlockAddress : — [2E PASSI 
Plane 
Address bit(s) 


图 3-38 ”Plane 地 址 位 


3.25 dE 5 ` PERI 


读 时 序 如 图 3-39 所 示 ， 在 用 户 发 送 命令 00~-30h 之 间 传输 了 所 读 的 
地 址 ， 包 括 2 个 列 地 址 和 3 个 行 地 址 。 发 完 命令 后 ，SR[6] (Status 
Register， 状 态 寄存 器 ，bit 6) 状态 转 为 Busy， 经 过 一 段 时 间 之 后 SR[6] 
状态 转 为 Ready， 数 据 就 可 以 读 了 。 


图 3-39” 读 时 序 


写 时 序 如 图 3-40 所 示 ， 用 户 发 了 80h 命 令 之 后 ， 发 送 写 地 址 ， 一 般 
列 地 址 是 0， 因 为 要 把 一 个 Page 写 满 ， 如 果 不 从 头 开始 写 满 一 个 Page， 
往往 会 导致 数据 出 错 。 发 完 地 址 HADL 时 间 之 后 ， 开 始 传输 数据 到 闪存 
的 缓存 。 数 据 传 完 ， 发 送 命令 10h， 内 存世 片 开 始 向 介质 写 入 数据 ， 
SR[6] 状 态 为 Busy， 在 写 操作 完成 后 状态 转 为 Ready。 


探 除 比较 简单 ， 如 图 3-41 所 示 ， 在 命令 60h 和 DOh 之 间 发 送 LUN 和 
Block 行 地 址 即 可 (因为 擦 除 是 以 Block 为 单位 ) 。 


DQx- 80h CI G2 RI R2 R3 DO D1 88 Dn 10h 


SR[6] 


图 3-40” 写 时 序 


Cycle Type ADDR ADDR ADDR CMD 


图 3-41 ” 擦 除 时 序 


3.2.6 ONFI 与 Toggle 协 议 之 争 


前 面 讲 的 主要 都 是 ONFI。 事 实 上 ， 闪 存 不 只 涉及 ONFI 协 议 ， 还 有 
Toggle 协 议 。 


很 久 很 久 以 前 ， 内 存 的 相关 技术 长 期 垄断 在 三 星 和 东 之 两 个 大 做 
手 里 ， 其 他 的 从 业者 日 子 过 得 不 那么 舒坦 。 


2002 年 ， 有 个 斯 坦 福 的 高 才 生 苏秦 ， 壮 志 满 怀 地 去 三 星 面试 ， 结 
果 因 为 气质 不 符 没 有 被 杂 取 。 他 一 气 之 下 推 扣 了 其 他 所 有 公司 的 蓝 
请 ， 回 到 河南 老家 每 天 翔 修炼 。 


三 年 以 后 ， 手 机 、MP3 和 U 甬 对 闪存 的 需求 量 逐 渐 增 大 ， 消 费 类 固 
态 人 硬盘 市 场 开始 进入 萌芽 期 ， 内 存 的 蛋 娄 越 来 越 大 ， 而 当时 各 个 内 存 
制造 商 的 设计 标准 各 有 差异 ， 这 导致 主 探矿 商 和 产品 厂商 各 种 厅 烦 ， 
各 种 不 适应 。 

苏秦 觉得 拯救 苍生 的 时 候 到 了 ， 离 开 老家 加 入 了 Intel 的 战略 发 展 部 
门 ， 说 服 老板 在 当年 旧金山 的 IDF 上 会 嚼 天 下 诸 伺 ， 成 立 了 ONEFTI 

(Open NAND Flash Interface) 联盟 ， 准 备 以 合 纵 之 法 对 付 三 星 和 东 

5 o 


参加 本 次 会 盟 的 有 : 


-内存 制造 两 : Intel ^ Micron ` Hynix ` Sandisk; 


A] B LSI^Marvell ` SMI ` JMicron ` PhisonS$ ; 


JT m] Hj: Adata ` Apacer ^ Biwin ` Data I/O ` HGST ` 
Kingston ` Netcom ` Seagate ` WD; 


.IJP 公 司 : Synopsys® ° 

三 星 和 东芝 坐 拥 钞 合 之 利 ， 占 据 了 当时 70% 的 市 场 份额 。 但 是 罕 畦 
的 怕 光 脚 的 ， 面 对 ONFI 嘲 吊 台 人 的 气势 ， 心 里 也 是 怕 得 要 死 。 于 是 叫 
2 um ELS LEMIS BH IRANE, muni TI EREN 
六 TE ZR: 


:二 星人 允许 东芝 生产 和 制造 自己 旗下 的 OneNAND 和 Flex-OneNAND 
AEST o 


.东芝 开放 自己 的 LBA-NAND 和 mobileLBA-NAND 闪 存 芯 片 技术 给 
HR o 


同时 计划 一 起 研发 新 一 代办 存 产 品 ， 也 就 是 后 来 的 Toggle 
NAND ° 


其 后 的 数 年 间 ，ONFI 和 Toggle 两 方 你 来 我 往 ， 互 为 攻守 。 


2014 年 ONFI 发 布 了 4.0 标 准 ， 最 高 速度 达到 了 800MT/s。 最 新 的 
Toggle 标 准 最 高 速度 也 是 800MT/s ° 


看 上 去 ONFI 比 较 牛 ， 然 而 从 市 场 份额 上 看 ， 两 大 阵 宫 几乎 症 五 五 
开 ， 三 星 / 东 之 还 上 略 占 优势 ， 如 表 3-6 所 示 。 


表 3-6 ”内 存 厂 商 市 场 份额 对 比 


[il 


m m 
— E 收 | dup u^ - EM 市 场 份额 
年 13.995 
m zd | 8 | nes 
pu 8.0% 


打 打 杀 杀 不 容易 ， 上 个 图 ， 对 比 一 下 管 脚 定义 ， 其 实 区 别 也 没 那 
AKR ( 见 图 3-42) ° 


同步 ， 异 步 模式 共享 管 肢 


WP N 
CE N 
CLE 
ALE 
WE N 
RE N 
RB N 
DQS 
(双边 沿 ) 
IO[7:0]/DQ[7:0] 


( 单 边 沿 ) 
IO[7:0]/DQ[7:0] 


图 3-42 ”ONFI 和 Toggle 管 脚 定义 对 比 


Toggle 同 步 模式 下 不 用 时 钟 ， 写 数据 用 DQS 差 分 信号 跳 变 沿 触 发 ， 
gm comen MM 


ONEFI 同 步 模式 下 有 时 钟 ， 数 据 、 命 令 、 地 址 都 要 与 时 钟 同步 。 但 
征 DQS、Clock 都 不 是 差分 信号 ， 所 以 边沿 容易 受 干 扰 。 


ONFI 3.0 里 面 有 NV DDR2 模 式 ， 这 就 和 Toggle 一 样 了 ， 不 再 用 
Clock， 用 DQS 和 REN 差 分 信号 。 
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3.3 ”闪存 特性 


3.3.1 ”内 和 存 存在 的 问题 

谈 谈 内 存 的 一 些 特点 ， 或 者 说 它 作 为 存储 介质 面临 的 挑战 。 
1. 内 存 坏 块 

内 存 块 (Block) 具有 一 定 的 寿命 ， 不 是 长 生 不 老 的 。 前 面 提 到 ， 
当 一 个 内 存 块 接近 或 者 超出 其 最 大 擦 写 次 数 时 ， 可 能 导致 存储 单元 水 


久 性 损伤 ( 见 图 3-43) ， 不 能 再 使 用 。 随 着 闪存 工艺 不 断 向 前 发 展 ， 晶 
体 管 的 尺寸 越 来 越 小 ， 擦 写 次 数 也 变 得 越 来 越 少 。 


Wordline 


图 3-43 ”闪存 损坏 状态 


内 存 中 的 存储 单元 和 匈 天 束 有 一 坚 是 坏 的， 或 者 说 旦 不 稳定 的 。 并 
且 随 看 内 存 的 不 断 使 用 ， 坏 的 存储 单元 越 来 越 多 。 所 以 ， 用 户 写 入 内 
存 的 数据 ， 必 须要 有 ECC 纠 错 码 保护 ， 这 样 即使 其 中 的 一 些 比 特 发 生 
反 转 ， 读 取 的 时 候 也 能 通过 ECC 纠 正 过 来 。 但 若 出 错 的 比特 数 超过 纠 
zn nes Sitten aS [dH TOS 


内 存 先 天 有 坏 块 ， 也 束 古 说 有 出 厂 坏 块 。 并 且 ， 用 户 在 使 用 过 程 
中 会 新 添 坏 块 ， 所 以 必须 有 坏 块 管理 机 制 。 


2. 读 干扰 


PIR, EMERITI (Read Disturb) 问题 。 从 闪存 读 取 原理 来 
看 ， 当 你 读 取 一 个 内 存 页 (Page) 的 时 候 ， 内 存 块 当中 未 被 选取 的 内 
存 页 的 控制 极 都 会 加 一 个 正 电 庄 ， 以 保证 来 被 选中 的 MOS 管 是 导 通 
的 。 这 样 问题 就 来 了 ， 频 繁 地 在 一 个 MOS 管 控制 极 加 正 电压 ， 就 可 能 
导致 电子 被 吸 进 浮 顶 极 ， 形 成 轻微 写 ， 从 而 最 终 导 致 比特 翻转 ， 如 图 3- 
44 所 示 。 但 是 ， 这 不 是 永久 性 损伤 ， 重 新 探 除 内 存 块 还 能 正常 使 用 。 
要 注意 的 是 ， 读 干扰 影响 的 是 同一 个 内 存 块 中 的 其 他 内 存 页 ， 而 非 读 
取 的 内 存 页 本 映 。 
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图 3-44” 读 干扰 原理 


3. 写 干扰 


除了 读 干 扰 会 导致 比特 翻转 ， 写 干扰 (Program Disturb) 也 会 导致 
比特 翻转 。 还 是 要 回 到 闪存 内 部 的 写 原理 上 来 ， 如 图 3-45 所 示 。 


Bitline 
p 
Wordline 
| 被 写 单元 | 


林 选 中 


CETA 


选中 20V 


ll 


10V 10V 
图 3-45 — 


我 们 写 一 个 内 存 页 的 时 候 ， 数 据 是 0O 和 1 混合 的 。 由 于 擦 除 过 的 内 
存 块 所 有 的 存储 单元 初始 值 是 1:， 只 有 写 0 的 时 候 才 真正 需要 操作 。 如 
图 3-45 所 示 ， 方 框 里 的 单元 是 写 0， 即 需要 写 的 ， 圆 圈 里 的 单元 的 代表 
写 1， 并 不 需要 写 操作 。 我 们 这 里 把 方 框 里 的 单元 称 为 Programmed 
Cells， 圆 圈 里 的 单元 称 为 Stressed Cells。 写 某 个 内 存 页 的 时 候 ， 我 们 是 
在 其 Wordline 控 制 极 加 一 个 正 电 压 (图 3-47 中 是 20V) ° Programmed 
Cells 所 在 的 Stringz SOIT]: 不 需要 写 的 单元 所 在 的 String 接 一 个 正 电 
压 (图 3-47 中 为 10V) 。 这 样 最 终 产生 的 后 果 是 ，Stressed Cell 也 会 被 轻 
微 瑟 。 与 读 干 扰 不 同 的 是 ， 写 干扰 影响 的 不 仅 古 同一 个 内 存 块 当中 的 
其 他 | 内存 页 ， 上 自身 内 存 页 也 会 受到 影响 。 RIA, 都 会 因 不 期 望 的 
c AUS 都 会 产生 非 永久 性 损伤 ， 经 擦 除 后 ， 内 存 块 还 

次 


4. 存 储 单元 间 的 耦合 


还 有 一 个 问题 ， 就 是 存储 单元 之 间 的 耦合 影响 (Cell-to-Cell 
interference) 。 前 面 提 到 ， 浮 栅 极 内 存 存储 电荷 的 是 导体 ， 因 此 存储 单 
元 之 间 存 在 糊 合 电容 ， 这 会 使 存储 单元 内 的 电荷 发 生意 外 变化 ， 最 终 
导致 数 据 读 取 销 误 。 
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漏 。 这 同样 会 导致 非 永久 性 损伤， 擦 除 后 内 存 块 还 能 使 用 。 


上 面 说 的 这 些 ， 是 所 有 闪存 面临 的 问题 ， 包 括 SLC、MLC 和 
TLC， 这 些 问题 的 处 理 方 法 在 第 4 章 会 进行 介绍 。 不 同 商家 的 内 存 、 不 
同 制程 的 内 存 ， 以 及 2D/3D 内 存 ， 还 有 其 特有 的 问题 ， 用 户 在 使 用 时 和 需 
要 用 固件 克服 或 者 绥 解 这 些 问 题 。 


3.82. ”寿命 


Rí ARE Bd3-Ae;2CIKORU LB A BREED, EEE, Asp ERE 
TEIJE ^ OKREA EAE ERG FRLHS 21 TR DETR], 189 posco 
被 探 过 的 那些 单元 电压 分 布 区 间 。 所 以 说 ， 如 果 要 正确 地 读 到 数据 ，0 
和 1 这 两 个 区 间 要 尽量 分 割 清 权 ， 保 证 它们 的 主峰 之 间 有 足够 远 的 距 


离 。 除 此 之 外 ， 病 值 电压 也 不 能 太 人 篇。 回忆 一 下 读数 据 的 原理 。 
P ] bit/cell 
4¢ 


图 3-46 ”SLC 电压 分 布 


要 读 的 单元 李 极 加 0V 电 压 ， 这 时 探 过 的 品 体 管 靖 值 电压 是 -V ， 导 
通 ， 沟 道 有 电流 ，Bitine 端 的 传 感 右 能 够 检测 到 ， 读 到 “1”。 而 经 过 写 
的 晶体 管 国 值 电压 是 +V, ， 不 导 通 ， 沟 道 电 流 很 小 ， 读 为 "0”。 随 着 控 
写 次 数 的 增加 ， 会 发 生 3 种 故障 : 

- 氛 过 的 晶体 管 立 值 电压 变 大 ， 从 -Vi 向 0V 靠 近 ， 这 样 读 的 时 候 沟 
道 电 流 变 小 ， 传 感 器 检测 不 到 ， 读 出 错 。 

` 写 过 的 品 体 管 阐 值 电压 变 小 ， 从 +Vi 同 0V 靠 近 ， 有 可 能 会 被 误 检 
测 为 擦 过 的 状态 。 


: 写 过 的 晶体 管 病 值 电压 变 大 (如 图 3-47 所 示 ，>5V， 即 使 控制 极 加 
5V 电 压 ， 它 也 是 截止 的 ) ， 有 可 能 在 其 他 的 单元 读 的 时 候 ， 把 整个 
Bitline 都 给 和 天 了 ° 
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图 3-47” 读 操作 电压 示例 


浮 顶 唱 体 管 对 浮 栅 极 下 面 的 绝缘 层 (Tunnel 氧 化 物 ) 很 敏感 ， 该 氧 
化 物 厚度 变 薄 (制程 不 断 减 小 导致 的 ) 或 者 老化 (Degradation， 擦 写 
次 数 多 了 ) 对 浮 栅 极 里 面 的 电 奏 影 响 很 大 。 我 们 之 前 介绍 了 Charge 
Trap 晶 体 管 ， 其 实 随 着 擦 写 次 数 增多 ， 浮 机 晶体 管 的 氧化 层 渐渐 老化 ， 


产生 不 少 Charge Trap， 这 些 陷阱 会 吃 掉 电 子 ， 导 致 写 之 后 ， 进 入 浮 机 
的 电子 数量 会 减少 ， 最 终 的 结局 就 是 0 和 1 两 个 区 间 不 断 靠近 。 


如 图 3-48 所 示 ， 上 面 是 写 后 的 靖 值 电压 ， 下 面 是 擦 除 后 的 国 值 电 
压 ， 很 明显 ， 氛 除 后 的 病 值 电压 在 擦 很 多 次 之 后 显著 变 高 。 所 以 ,一 
般 氛 除 之 后 会 做 校 验 ， 方 法 是 把 所 有 的 Wordline 设 为 0V， 再 去 检测 每 
个 Bitline 的 电流 。 如 果 某 个 Bitline 电 流 是 9， 就 意味 着 有 个 单元 的 氛 除 
出 值 电压 接近 0V， 导 致 蝇 体 管 天 断 。 所 以 这 个 内 存 块 应 该 标 为 坏 块 。 


了 解 了 内 存 寿 命 的 原理 之 后 ， 我 们 再 来 看 看 固态 硬盘 设计 实践 中 
皇 么 解决 这 个 问题 。 一 般 有 以 下 方法 : 


"Wear Leveling: 通过 磨损 平衡 算法 ， 让 所 有 的 闪存 块 均衡 探 写 ， 
避 人 兔 少 数 内 存 块 先 挂 挥 ， 导 致 固态 人 硬盘 容量 下 降 。 


:降低 写 放 大 ， 写 放大 越 低 ， 固 态 硬 盘 的 磨损 速度 越 慢 。 


用 更 好 的 纠 错 算 法 : 纠 错 能 力 越 强 ， 容 许 的 出 错 率 越 高 ， 故 采用 
更 好 的 纠 错 算 法 可 以 延长 硬盘 使 用 寿命 。 


一 全 一 W-150nm/L-90nm 


-大 W-150nm/L-120nm 
一 全 一 W-150nm/L-150nm 


10? 10! 10? 10? 10* 10? 
擦 写 次 数 
图 3-48” 立 值 电压 变化 图 


3.3.3 ”闪存 测试 


为 什么 固态 硬 强 还 涉及 内 存 测试 呢 ? 这 不 应 该 是 内 存 广 商 的 事情 
吗 ? 如 果 你 问 这 些 问 题 ， 那 环 是 很 傻 很 天 真 。 理 论 和 现实 总 是 有 差距 
HJ, BIS ZR PA HESS DN AVES, RAE: 
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-固态 人 硬盘 制造 过 程 中 有 合格 率 问题 ， 不 能 保证 每 个 内 存心 片 部 焊 
接 得 完美 无 缺 ; 


-固态 便 弄 制造 商 为 了 降低 成 本 ， 会 从 各 种 渠道 获得 低 价 内 存心 
片 ， 这 些 心 片 质量 没有 保障 ， 需 要 固态 硬盘 制造 商 目 己 租 选 。 


图 3-49 所 示 是 BGA 封装 的 焊 球 X 光 片 ， 可 以 看 出 里 面 有 个 空洞 ， 导 
致电 路 信号 故障 。 所 以 ， 固 态 硬盘 出 厂 前 要 对 每 一 块 闪存 进行 测试 ， 
测试 方法 如 下 : 


空洞 


图 3-49 BGA 焊接 空洞 
.测试 每 个 CE 是 否 可 以 正常 操作 ， 比 如 Reset、Read ID 等 ; 


.对 每 个 LUN、Plane 进 行 读 写 测 试 ， 要 考虑 到 一 定 的 比特 翻转 率 ， 
看 看 写 入 的 数据 和 读 出 差距 有 多 大 。 写 入 数据 要 选择 不 同 的 数据 类 
型 ， 比 如 连续 的 0 或 者 连续 的 1° 存储 絮 件 测试 有 很 多 专用 数据 格式 ， 
有 兴趣 的 读者 可 翻 看 各 种 论文 ， 也 可 以 参考 著名 的 内 存 测试 软件 
memtest 的 测试 方法 。 


如 果 工 厂 发 现 闪存 有 问题 ， 那 该 怎么 办 ? 还 能 怎么 办 ， 换 好 的 
顺 。 把 芯片 拆 下 来 ， 再 换个 好 的 上 去 ， 对 熟 手 来 说 轻 轻松 松 。 如 果 是 
BGA 封装 ， 需 要 专业 设备 辅助 。 那 么 换 下 来 的 芯片 就 这 么 扔 了 吗 ? 能 
变 废 为 宝 吗 ? 肯定 能 ， 比 如 放 到 U 盘 里 。 


一 般 来 讲 ， 从 U 盘 到 消费 级 固态 硬盘 再 到 企业 级 固态 硬盘 ， 对 内 存 
的 要 求 是 逐渐 升 高 的 ， 因 为 写 的 强度 不 断 增 大 。U 盘 也 就 偶尔 用 用 ， 一 
天 写 不 了 多 少数 据 。 目 己 笔记 本 平时 也 不 会 一 直 写 数据 。 企 业 级 固态 
硬盘 几乎 每 时 每 刻 都 在 工作 ， 读 读 写 写 ， 忙 个 不 停 。 所 以 ， 不 要 以 为 
几 个 U 僵 束 能 次 一 个 固态 硬盘 使 用 ， 内 存 的 质量 是 不 一 样 的 。 企 业 级 固 
仿 硬 盘 用 的 是 最 贯 的 原矿 内存 ， 消 费 级 固态 硬盘 往往 站 便宜 的 ， 有 很 
多 厂家 从 闪存 厂商 购买 唱 圆 自己 封 测 。U 盘 就 是 最 差 的 内 存 了 ， 其 所 用 
心 片 来 目 于 各 种 渠道 ， 成 本 很 低 。 


3.3424. MLC 使 用 特性 


对 MLC 来 说 ， 的 除 一 个 内 存 块 的 时 间 大 概 是 儿 坚 秒 。 内 存 的 读 写 
则 是 以 内 存 页 为 基本 单元 的 。 一 个 内 存 页 大 小 主要 有 4KB、8KB、 
16KB 几 种 。 对 MLC 或 者 TLC 来 说 ， 写 一 个 内 和 存 块 当中 的 内 存 页 ， 应 该 
顺序 写 Page0、Pagel1、Page2、Page3...... 禁 止 随 机 写 入 ， 比 如 Page2、 
Page3、Page5、Page0...... 为 什么 ? 原因 主要 有 二 : 


一 个 存储 单元 包含 两 个 内 存 页 数据 ， 要 先 写 Lower Page， 再 写 
Upper Page ° 


 ,' 相 邻 单元 之 间 有 耦合 电容 ， 工 艺 上 要 求 后 面 的 闪存 页 写 操作 时 前 
面 的 闪存 页 已 经 写 过 。 


但 对 读 来 说 ， 没 有 这 个 限制 。SLC 也 没有 这 个 限制 。 
MLC 有 其 特有 的 一 些 问 题 : 


:正如 前 面 提 到 的 ，MLC 最 大 擦 写 次 数 会 变 小 。 这 样 ， 束 更 需要 
Wear Leveling 技 术 来 保证 整个 存储 介质 的 使 用 寿命 。 


.对 MLC 来 说 ， 一 个 存储 单元 存储 了 2bit 的 数据 ， 对 应 痢 两 个 
Page: Lower Page 和 Upper Page。 假 设 Lower Page 和 完 写 ， 然 后 在 写 
Upper Page 的 过 程 中 ， 由 于 改变 了 整个 单元 的 状态 ， 如 果 这 个 时 候 掉 
电 ， 那 么 之 前 写 入 的 Lower Page 数 据 也 会 丢失 。 也 就 是 说 ， 写 一 个 内 
存 页 失败 ， 可 能 会 导致 男 外 一 个 内 存 页 的 数据 损坏 。 


前面 说 到 ， 不 能 随机 写 。 不 能 先 写 Upper Page， 然 后 再 写 Lower 
Page， 这 点 束 限 制 了 我 们 不 能 随意 地 写 。 


` 写 Lower Page 时 间 短 ， 写 Upper Page 时 间 长 ， 所 以 会 看 到 有 些 闪 
存 页 写 入 速度 快 ， 有 些 内 存 页 写 入 速度 慢 。 


关于 MLC 的 Lower Page 数 据 损坏 问题 ， 阿 采 还 想 多 说 一 些 ， 这 个 
问题 其 实 对 于 固态 硬盘 控制 右 的 设计 者 来 说 是 个 大 问题 ， 因 为 涉及 数 
据 可 靠 性 。 首 先 我 们 来 说 两 条 存储 行业 的 规矩 : 


—PBUCEDCR ZRAAEGER TROU T, RIK E ERAR C 
ucc pm 那么 这 个 数据 就 是 安全 的 。 数 据 写 到 物理 介质 上 或 可 
> 万 S o 


.如 果 数 据 在 写 的 过 程 中 发 生 了 异常 掉 电 ， 那 么 该 数据 即使 天 了 也 
可 以 接受 ， 毕 竟 用 户 认为 数据 还 没 写 完 。 


但 是 Lower Page 数 据 损坏 打破 了 这 个 常识 : 尽管 已 经 成 功 写 到 了 
熏 里 ， 但 是 假如 该 数据 位 于 Lower Page 上 ， 很 不 下 的 是 ， 恰 好 过 了 不 
久 ， 后 面 有 数据 写 对 应 的 Upper Page 时 发 生 了 异常 掉 电 ， 那 就 会 导致 
Lower Page 上 已 经 写 好 的 数据 也 被 破坏 。 也 就 是 说 ， 国 态 人 硬盘 正在 写 
的 时 候 ， 如 果 发 生 了 异常 挥 电 ， 有 可 能 会 丢失 之 前 写 入 的 数据 。 


那 该 怎么 办 呢 ? 聪明 的 消费 级 固态 硬盘 研发 工程 师 采用 了 很 多 技 
术 来 防止 这 种 情况 发 生 。 
:只 写 Lower Page: 成 本 比较 高 ， 只 适合 关键 数据 和 土豪 。 


Lower Page 和 Upper Page 亲 包 写 :每 次 数据 量 多 并 点 ， 争 取 Lower 
Page 和 Upper Page 都 写 (需要 | 闪存 文 持 One Pass Programming) ° 


-定期 填充 Upper Page: 消费 级 固态 硬盘 要 求 省 电 ， 所 以 会 频 蔡 进 
入 省 电 模式 ， 可 能 安静 个 儿 百 坚 秒 头目 动 休眠 了 “。 休眠 之 表 检 查 是 个 
jd Lower Page 写 过 了 ， 有 Upper Page 还 没 写 的 情况 ， 就 把 Upper Page 

ERR 


-Ej Lower Page 数 据 时 ， 备 份 该 数据 到 别 的 | 内存 块 上 ， 直 到 它 对 应 
的 Upper Page 数 据 写 完 。 这 样 即 使 掉 电 导致 Lower Page 数 据 丢 失 ， 也 可 
使 用 备份 数据 进行 还 原 。 


MLC 闪 存 块 当 SLC 块 使 用 ， 强 迫 用 户 数据 写 到 SLC 块 ， 随 后 以 二 
圾 回收 的 方式 把 数据 从 SLC 闪存 块 搬 到 MLC 闪 存 块 。 


经 过 上 述 各 种 努力 ， 用 户 的 数据 可 以 做 到 很 安全 ，Lower Page 数 
。 所 以 ， 请 你 放心 ， 使 用 固态 便 盘 是 安全 
y! 


对 企业 级 固态 硬盘 来 讲 ， 数 据 安全 性 尤其 重要 ， 而 且 要 长 期 开 
机 ， 不 能 像 消 费 级 一 样 动不动 束 进 入 省 电 模 式 。 那 么 ， 怎 样 降低 
Lower Page 数 据 损坏 的 危害 ? 一 般 是 在 固态 便 盘 内 配备 大 电容 ， 发 生 
异常 掉 电 后 ， 大 电容 储存 的 电量 可 以 文 撑 儿 十 量 秒 ， 保 证 正在 进行 写 
操作 的 内 存 把 数据 写 完 。 现 在 主流 的 企业 级 固态 人 硬盘 控制 器 不 仅 能 在 
大 电容 供电 的 时 间 内 把 内 存 正在 写 的 数据 写 完 ， 还 能 把 缓存 里 的 数据 
写 完 ， 最 后 写 一 些 固 态 硬盘 内 部 的 天 键 管理 数据 ， 比 如 映射 表 等 。 
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记得 几 年 前 我 们 碰 到 一 个 问题 ， 束 是 有 客户 有 反映， 他们 在 使 用 我 
们 的 固态 人 硬盘 时 ， 发 现 读 性 能 过 段 时 间 束 有 一 个 比较 大 的 下 降 。 后 
来 ， 经 过 我 们 工程 师 的 努力 ， 发 现 菲 魁 宰 首 就 是 读 干 扰 (Read 
Disturb) 。 最 后 ， 聪 明 的 工程 师 完美 地 解决 了 这 个 问题 。 


读 干扰 为 什么 会 导致 性 能 下 降 ? 下 面 将 解释 原因 。 


读 干 扰 会 导致 浮 栅 极 进入 电子 。 由 于 有 额外 的 电子 进入 ， 会 导致 
(Data Retention 问 题 导 致 靖 值 电压 左 移 ) ， 如 图 3- 
5OHTZR ° 


FT s HET ELRLH fü ir AE T SRI ( 变 大 了 ) ， 闪 存 内 部 逻辑 
如 琳 还 是 按照 之 前 的 参考 电压 加 在 控制 极 上 然后 去 判断 数据 ， 肯 害 会 
发 生 误 判 ， 也 吏 是 谈 到 错误 的 数据 。 


K[3-50 BME FE, Hs fie 
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读 该 内 存 块 上 数据 的 次 数 有 关 ， 读 得 越 多 ， 右 移 越 多 ， 影 响 越 大 ; 一 


方面 还 跟 闪 存 块 的 探 除 次 数 有 关 ， 探 写 次 数 越 多 ， 绝 缘 效果 越 差 ， 电 
子 进入 浮 栅 极 惑 越 容 吻 ， 读 干扰 的 影响 也 束 越 大 。 


那么 ， 内 存 使 用 者 如 何 应 对 读 干 扰 呢 ? 


一 般 做 法 是 记录 每 个 内 存 块 读 的 次 数 ， 赶 在 这 个 数值 达到 立 值 
(内 存 厂家 提供 ) 之 前 ， 把 内 存 块 上 所 有 的 数据 刷新 一 过 ( 读 出 来 ， 
擦 除 ， 然 后 写 回 ) ， 或 者 把 数据 搬 到 别 的 地 方 。 回 到 开头 那个 问题 ， 
读 干 扰 为 什么 会 导致 固态 硬盘 性 能 下 降 ? 就 是 因为 一 个 内 存 块 上 的 数 
据 读 的 次 数 太 多 了 ， 固 件 需要 赶 在 数据 出 错 前 ， 把 整个 内 存 块 数据 刷 
SRAM, EARGED, (DAS GARAR, SAER E 


还 有 人 研究 发 现 ， 减 小 Vss。 (加 在 没有 被 读 的 那个 Wordline 上 的 
电压 ) 可 以 缓解 读 干 扰 。 因 为 Viass 变 小 ， 电 场 减弱 ， 吸 入 电子 的 能 
减弱 ， 目 然 能 缓解 读 干 扰 的 影响 。 但 是 ， 一 方面 ， 现 在 内 存 上 商都 没 
有 开放 调 Vsss 电压 的 接口 给 用 户 ; 夯 一 方面 ， 过 低 的 Vuass 可 能 导致 读 
失败 。 该 方法 只 能 起 到 缓解 作用 ， 不 能 从 源头 上 杜绝 读 干 扰 的 影响 。 


3.3.6 ”闪存 数据 你 存 期 


下 面 来 聊 聊 存储 的 数据 能 保存 多 久 。 


图 3-51 是 现 藏 于 甘肃 省 博物 迄 的 西汉 天 水 放 马 滩地 图 ， 于 1986 年 在 
甘肃 天 水 放 马 滩 5 号 汉 莫 出土 ， 其 用 纸 是 世界 上 现存 最 早 的 纸 。 根 据 考 
古 专 家 的 断定 ， 这 是 一 张 西 汉文 帝 或 景帝 (公元 前 179 年 一 前 143 年 ) 
时 期 的 纸 质地 图 。 距 今 已 经 有 两 千 多 年 的 历史 ， 变 得 残破 不 全 。 


刘 慈 欣 的 小 说 《三 体 》 中 提 到 ， 即 使 是 刻 在 宕 石上 的 巨型 文字 ， 
经 过 几 千 万 年 的 沧海 桑田 ， 也 会 找 不 到 踩 迹 。 


所 以 ， 无 论 用 任何 存储 技术 ， 存 储 的 数据 都 不 能 永远 保存 ， 都 会 
有 个 保存 时 间 。 闪 存 中 ， 数 据 保存 时 间 的 问题 叫 作 Data Retention。 到 
了 期 限 ， 数 据 就 会 出 错 ， 标 志 就 是 从 闪存 读 出 来 的 数据 无 法 用 ECC 纠 
错 成 功 。 我 们 知道 内 存 一 般 有 以 下 错误 : 


图 3-51 世界 上 最 早 的 纸 


.电气 问题 ， 比 如 虚 焊 或 者 芯片 故障 ， 导 致 正常 命令 无 法 执行 或 者 
数据 错误 率 异 常 高 。 这 种 问题 在 闪存 或 固态 硬盘 出 厂 测试 时 就 会 被 发 
现 。 


读 、 写 、 擦 失败 :基本 命令 执行 失败 ， 通 过 状态 位 可 以 读 到 结 
果 。 这 些 问题 在 必 斤 使 用 过 程 中 也 有 可 能 发 生 ， 但 是 概率 非常 小 。 


:ECC 纠 错失 败 : 其 实 就 是 数据 错误 率 太 高 ， 超过 了 纠 错 算法 的 纠 
B BE7J ° Data Retention 是 其 中 一 个 元 凶 。 


内 存 存 储 的 机 理 是 通过 量子 隧道 效应 ， 电 子 跃迁 到 浮 栅 层 并 停留 
在 那里 。 随 着 时 间 的 流逝 ， 电 子 还 是 有 一 定 概率 离开 浮 栅 层 ， 回 到 沟 
道里 面 ， 离 开 的 电子 多 了 就 有 可 能 导致 写 过 的 单元 读 出 来 的 结果 跟 控 
除 过 的 一 样 ， 也 就 是 说 数据 出 销 了 。PData Retention 和 浮 栅 层 下 面 的 氧 
化 层 厚 度 有 关 ， 毕 竟 氧 化 层 越 厚 ， 电 子 离开 的 概率 越 小 。 有 人 研究 表 
明 ， 和 氧化 层 厚 度 如 果 是 4.5nm， 那 么 理论 上 数据 可 以 保存 10 年 。 


SSDFans 微 信和 群 里 有 一 位 大 牛 群 友 蔡 守 (Yu Cai) 博士 ， 他 在 
Carnegie Mellon University 攻 读 博 士 时 专门 研究 内 存 纠 错 ， 后 来 去 LSI 做 
这 方面 的 研发 。 阿 有 这 次 根据 他 的 一 篇 论文 《Data Retention in MLC 
NAND Flash Memory: Characterization, Optimization, and Recovery? 


来 介绍 其 对 闪存 数据 保存 的 分 析 。 


图 3-52 是 闪存 基 本 单元 浮 顶 品 体 管 的 堆 面 多。 最 上 面 是 控制 层 ， 中 
HEFE, FEE mE, TERERAA o E 
ERAR, A EETA, BTA EKSubstrateh A, F 
ERE, XENTEMPURGEEOK, WER T ERE. RZ, EERE 
MIRRI REE, BFAMAFWET EF, ERR, AARE 
擦 除 。 不 过 ， 控 制 层 不 加 电压 的 时 候 ， 氧 化 层 依然 会 产生 一 个 电场 ， 
叫 作 本 征 电场 ， 它 站 由 译 概 里 面 的 电子 产生 的 。 在 这 个 电场 的 作用 
下 ， 电 子 会 从 浮 权 慢 慢 汇 露 ， 汶 漏 的 多 了 ， 数 据 束 会 发 生 错 误 。 从 写 
入 操作 到 电子 慢 慢 泄漏 ， 直 到 数据 出 错 ， 这 个 期 限 叫 作 数据 保存 期 ， 
在 SLC 时 代 ， 这 个 时 间 很 久 ， 有 好 几 年 ， 但 是 到 了 TLC 时 代 ， 不 到 一 
年 ， 有 的 只 有 几 个 月 。 
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那 为 什么 内 存 用 得 越久 ， 数 据 保 存 时 间 越 短 呢 ? 这 要 怪 一 个 效 

Ny: Trap-assisted tunneling (TAT) 。 如 图 3-54 (b) 所 示 ， 我 们 知道 隧 
道 氧化 层 是 绝缘 的 ， 但 是 随 着 内 存 的 使 用 ， 历 经 很 多 次 的 擦 写 ， 氧 化 
层 和 浮 权 层 的 爱情 终于 要 走 到 终点 了 ， 因 为 经 过 这 么 年 风 风 雨 雨 ， 氧 
化 层 老 了 ， 有 不 少 通 过 它 的 电 答 被 沾 留 下 米 ， 绝 绿 体 有 了 导电 性 。 这 
样 ， 电 谷 从 浮 栅 跑 得 就 更 快 了 。 所 以 ， 内 存 氛 写 次 数 越 多 ， 数 据 保存 
时 间 就 越 短 。 到 最 后 快 到 额定 擦 写 次 数 的 时 候 ， 比 如 3000 次 ， 刚 写 的 
数据 就 很 容易 出 错 。 


ME, MEHTA ETERA En, BRE ERDEMES A 
JF, HM|fECharge de-trapping ° KRANA FARA EET, w6 Et, 
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那么 ， 怎 样 解决 Data Retention 的 问题 呢 ? 总 不 能 让 用 户 的 数据 放 
个 几 个 月 或 者 几 年 就 对 了 吧 ? 一 般 固态 硬盘 会 采用 Read Scrub 技 术 ， 或 
者 叫 数据 巡 检 、 扫 摘 重 写 技术 等 。 


如 果 你 对 存储 技术 有 所 了 解 ， 那 么 当 你 看 到 Scrub 这 个 词 的 时 候 ， 
自 先 肯定 想到 的 是 Sun 公 司 开发 的 六 名 纠 纠 的 ZFS (Zettabyte File 
System) 文件 系统 。ZFS 的 设计 者 发 现 ， 有 很 多 用 户 的 数据 长 期 没有 读 
过 ， 更 别 说 被 重 写 了 。 即 使 是 数据 读 取 频 党 的 数据 库 应 用 ， 也 存在 长 
期 不 被 访问 的 数据 ， 它 们 宁 寞 地 躲 在 角落 里 ， 长 期 无 人 问津 。 但 是 ， 
不 管 什么 类 型 的 磁盘 ， 总 是 会 有 概率 发 生 比 特 翻转 ， 导 致 数据 出 错 ， 
等 你 需要 这 份 数据 的 时 候 ， 错误 有 可 能 比较 严重 ， 根 本 恢复 不 出 原 
样 。 在 ZFS 文 件 系 统 中 ， 每 个 数据 块 都 有 自己 的 校 验 码 Checksum， 只 
要 被 读 了 ， 就 可 以 通过 Checksum 发 现 数 据 是 否 出 错 ， 提 前 对 出 错 的 数 


据 块 进行 纠 错 。 所 以 ，ZFS 提 供 了 一 个 功能 叫 Scrub， 对 文件 系统 进行 
扫描 ， 提 前 发 现 那些 出 错 的 数据 ， 并 纠 错 重 写 。 


固态 硬盘 的 Read Scrub 技 术 跟 ZFS 关 似 ， 在 固态 硬盘 不 忙 的 时 候 ， 
按照 一 定 的 算法 ， 扫 描 全 盘 ， 如 果 发 现 某 个 闪存 页 翻转 比特 数量 超过 
一 定 阔 值 ， 就 重 写 数据 到 新 的 地 方 。 这 样 做 的 好 处 是 避免 数据 放 太 入 
从 而 导 到 比特 翻转 数量 超过 ECC 算 法 的 纠 错 能 力 ， 这 样 能 碱 少 ECC 丰 
可 纠 错误 。 


34 闪存 数据 完整 性 


内 存 的 一 个 特性 束 是 随 着 内 存 的 使 用 以 及 数据 存储 时 间 的 变 长 ， 
存储 在 内 存 里 面 的 数据 容易 发 生 比 特 翻转 ， 出 现 随机 性 错误 。 这 个 问 
题 随 看 闪存 制程 的 变 小 越发 三重 。 因 此 ， 使 用 内 存 作为 存储 介质 的 固 
态 便 副 ， 需 要 采用 一 些 数 据 完 整 性 的 技术 来 确 你 用 户 数据 可 靠 不 丢 
失 。 篆 见 的 技术 有 : 


:ECC 纠 错 。 


:RAID 数 据 恢复 。 

.重读 (ReadRetry) 。 
.扫描 重 写 技 术 (Read Scrub) ° 
-数据 随机 化 。 


3.4.1 ” 读 销 误 来 源 
闪存 数据 发 生 错误 ， 主 要 有 以 下 几 个 原因 
1. 擦 写 次 数 增多 


随 着 内 存 块 擦 写 次 数 增多 ， 氧 化 层 逐 渐 老 化 ， 电 子 进出 存储 单元 
越 来 越 容易 ， 因 此 存储 在 存储 竺 元 的 电 何 容易 发 生 异 第 ， 导 致 数据 读 


错误 ， 如 图 3-53 所 示 。 
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图 3-53 ”同一 个 内 存心 片 内 不 同 内 存 块 在 不 同 寿 命 时 的 RBER 


2.Data Retention 


随 着 时 间 的 推移 ， 存 储 在 存储 单元 的 电子 会 流失 ， 整 个 阐 值 电压 


分 布 向 左 移动 ， 导 致 读数 据 的 时 候 发 生 误 判 ， 如 图 3-54 所 示 。 


一 (一 Before Data Retention 
TE 2 Months (040C 


[A] (EL FB, Fs 
图 3-54 ” 靖 值 电压 分 布 随 着 时 间 偏 移 上 
3. 读 干扰 


读 一 个 Wordline 数 据 时 ， 需 要 施加 Vass 电压 在 其 他 Wordline 上 ， 导 
致 其 他 内 存 页 发 生 轻 徽 写 。 如果 读 的 次 数 过 多 ， 轻 微 写 素 积 起 来 束 会 
使 国 值 电压 分 布 发 生 右 移 ， 导 致 读数 据 时 候 发 生 误 判 ， 即 读数 据 错 
误 ， 如 图 3-55 所 示 。 
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4. 存 储 单元 之 间 干 扰 


由 于 存储 电子 的 浮 栅 极 是 导体 ， 两 个 导体 之 间 构 成 电容 ， 一 个 存 
储 单元 电 何 的 变化 会 导致 其 他 存储 单元 电 何 变化 ， 而 受 影响 最 大 的 融 
是 与 它 相 邻 的 存储 单元 。 周 围 的 单元 是 不 同 的 状态 时 ， 中 心 单 元 的 国 
值 电压 是 不 一 样 的 ， 如 图 3-56 所 示 。 
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图 3-56 ”周围 单元 不 同 状态 时 的 阔 值 电压 分 布 (来 源 : FMS 2016) 
5. 写 销 误 


写 错 误 一 般 发 生 在 MLC 或 者 TLC 2-pass ( 先 写 Lower Page， 然 后 再 
写 Upper Page) 写 过 程 中 。 写 Upper Page 的 时 候 ， 它 是 基于 之 前 Lower 
Page 的 状态 ， 然 后 再 写 每 个 存储 单元 到 目标 状态 。 如 果 写 Upper Page 的 
时 候 ，Lower Page 数 据 已 经 出 错 (注意 写 Upper 的 时 候 ，Lower Page 的 
数据 是 不 会 经 过 控制 器 ECC 纠 错 的 ， 写 过 程 发 生 在 内 存 内 部 . WMS 
导致 存储 单元 写 到 一 个 不 期 望 的 状态 ， 即 发 生 写 错误 。 


数据 一 开始 丈 写 错 了 ， 当 然 融 别 指望 读 对 了 。 


TLC 1-pass program 则 没有 这 个 问题 ， 因 为 Lower Page 和 Upper Page 
是 一 次 性 同时 写 入 ， 写 Upper Page 不 依赖 于 Lower Page 数据。 当然， 如 
果 一 开始 擦 除 状 态 束 不 对 ， 那 么 还 是 会 发 生 写 错误 。 


[1] ÆT Ed Fr 3532€ B NAND Flash Basics & Error Characteristics : 
Thomas Parnell, Roman Pletka IBM Research-Zurich , Flash Memory 
Summit 2017 ° 


3.4.92 ”重读 


内 存 有 几 种 缺陷 ， 对 于 电压 分 布 平 移 的 问题 疝 可 想 办 法 恢复 ， 因 
为 数据 之 间 还 是 清楚 隔离 的 。 


图 3-57 以 MLC 为 例 ， 每 个 存储 单元 存储 两 个 比特 的 数据 ， 一 共有 
四 种 状态 。 当 四 种 状态 的 电压 分 布 发 生平 移 后 ， 如 末 还 是 采用 之 前 的 
参考 电压 去 读 取 的 话 ， 就 可 能 会 出 现 读 取 数据 失败 的 情况 。 使 用 重读 
拉 术 后 ， 我 们 可 以 不 断 改变 参考 电压 ， 来 笑 试 找到 可 以 读 出 数据 的 电 
压 点 ， 直 到 正确 读 出 数据 。 理 论 上 ， 只 要 这 四 种 状态 的 电压 分 布 没有 
发 生 重 登 ， 束 可 以 通过 重读 恢复 数据 。 


还 有 更 复杂 的 重读 ， 叫 作 Advanced Read Retry。 先 读 附 近 的 单元 人 确 
定 状 态 ， 再 用 不 同 参 考 电 压 读 两 次 要 读 的 单元 ， 根 据 附 近 单 元 数据 决 
定 选择 哪 一 个 。 


a 


Em temm mmm mm 


Kee erit cirea er nnl d d a i ud pi n a i S 


3.4ks5 ECC 纠 错 码 


固态 硬盘 控制 器 上 面 都 有 ECC 纠 错 模块 ， 有 些 闪 存 内 部 也 集成 了 
ECC 纠 错 模块 。 铝 用 闪存 ECC 纠 错 算法 有 BCH (Bose ` Ray-Chaudhuri 
与 Hocquenghem 三 位 大 神 名 字 的 首 字 母 ) 和 LDPC (Low Density Parity 
Check Code) 等 。 目 前 市 面 上 很 多 固态 硬盘 控制 右上 采用 的 是 BCH， 
但 采用 LDPC 正 成 为 一 种 趋势 。 


用 户 数据 最 终 都 是 写 在 闪存 页 (Page 上 面 ， 闪 存 页 空间 除了 用 
户 空间 ， 还 有 额外 的 预 留 空间 ， 这 部 分 空间 可 以 用 来 写 ECC 校 验 数 
据 。 用 户 数据 大 小 固定 ， 需 要 更 强 的 纠 错 能 力 ， 这 就 需要 更 多 的 ECC 
空间 。 因 此 ， 纠 错 强 度 受 限于 闪存 页 的 预 留 空 间 。 越 多 的 预 留 空 间 就 
能 提供 越 强 的 ECC 纠 错 能 力 。 


目前 绝 大 多 数 固态 硬盘 都 采用 静态 ECC 纠 错 方案 ，ECC 纠 错 单元 
(用 户 数据 ) 和 ECC 校 验 数 据 大 小 在 整个 固态 硬盘 生命 周期 都 是 固定 
的 ， 也 就 是 说 纠 错 能 力 始 终 保持 不 变 。 由 于 内 存在 使 用 初期 内 部 发 生 
比特 翻转 的 概率 小 ， 而 随 着 闪存 的 使 用 ， 出 错 概 率 逐 渐变 大 ， 因 此 有 
些 固态 硬盘 开始 采用 动态 ECC 纠 错 方案 : 开始 使 用 更 少 的 纠 错 码 ， 这 
样 在 闪存 的 页 里 面 可 以 存储 更 多 的 用 户 数据 ; 随 着 固态 硬盘 的 使 用 ， 
纠 错 能 力 需要 加 强 ， 用 户 数据 在 闪存 页 里 面 占 的 比例 变 小 ， 纠 错 码 所 
占 比 例 变 大 。 动 态 ECC 纠 错 方案 就 是 随 着 固态 硬盘 的 使 用 ， 动 态 调 整 
其 ECC 纠 错 能 力 。 动 态 ECC 纠 错 有 什么 好 处 ? 如 采 开 始 使 用 更 少 的 
ECC 校 验 数 据 ， 那 么 每 个 页 能 写 入 的 用 户 数据 就 更 多 ， 相 当 于 固态 硬 
盘 拥 有 更 多 的 OP (Over Provisioning, MAZE) ， 减 小 了 写 放大 ; 
同时 ， 在 数据 从 控制 器 写 入 或 者 读 取 内 存 的 通道 上 ， 用 户 数 据 越 多 ， 
ECC 校 验 数 据 越 小 ， 带 宽 利 用 率 高 。 


其 实 ， 动 态 ECC 的 优势 不 仅 体 现在 随 着 时 间 的 推移 ECC 纠 错 能 
会 发 生变 化 ， 而 且 体现 在 固态 硬盘 的 内 存 位 置 上 每 个 Die 甚 至 每 个 内 存 
页 有 不 同 的 纠 错 能 力 。 在 固态 硬盘 闪存 阵列 里 ， 有 些 Die 可 能 质量 好 
点 ， 有 些 Die 可 能 质量 差点 ， 好 的 Die 可 以 用 更 少 的 ECC 纠 错 代 码 ; 相 
反 ， 差 的 Die 就 需要 更 强 的 ECC 纠 错 。 对 MLC 来 说 ，Lower Page 相 对 
Upper Page 更 稳定 一 些 ， 因 此 可 以 使 用 弱 一 些 的 ECC 保 护 ， 相 反 ， 
Upper Page 则 需要 更 强 的 ECC 保 护 。 


3.4.4 RAID 


当 闪 存 中 数据 比特 发 生 翻 转 的 个 数 超出 ECC 纠 鲁能 力 范 围 后 ， 
ECC 纠 错 就 无 能 为 力 了 。 在 一 些 企业 级 ， 以 及 越 来 越 多 的 消费 级 固态 
硬盘 上 ， 都 在 使 用 RAID (Redundant Arrays of Independent Disks) 纠 错 
技术 。 类 似 磁 盘 阵 列 ， 固 态 硬盘 内 部 本 质 束 是 一 个 内 存 阵 列 ， 所 以 可 
以 借鉴 伐 一 阵列 技术 来 确保 数据 的 完整 性 。 固 态 硬 盘 的 RAID 一 般 采 用 
RAID 5? 


以 图 3-58 所 示 为 例 ， 某 个 固态 硬盘 的 闪存 阵列 由 5 个 Die 构 成 ，Die 
0 一 3 存储 的 是 用 户 数 据 ，Die P 则 存储 校 验 数 据 ， 为 Die 0、Die 1、Die 2 
和 Die 3 数据 之 “ 异 或 "*。 假设 Die 1 上 出 现 ECC 不 可 纠 的 错误 ， 那 么 可 以 
通过 读 取 Die 0 ^ Die 2、Die 3 和 Die P 对 应 位 置 上 的 数据 ， 然 后 做 “ 异 
或 "， 就 能 恢复 出 Die 1 上 的 数据 。 
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图 3-58 RAID 5 


采用 RAID 5 的 固态 硬盘 只 能 恢复 单个 ECC 不 可 纠 的 数据 ， 如 采 出 
现 多 个 ECC 不 可 纠 的 错误 ， 它 也 无 能 为 力 。 


由 于 采用 了 克 余 纠 错 技术 ， 它 需要 额外 的 空间 来 存储 见 余 数据 
( 校 验 数据 ) ， 因 此 必然 会 牺牲 用 户 空间 。 正 应 了 一 句 话 : 天 下 没有 
f SR ESTE ° 


看 起 来 容易 ， 做 起 来 难 ， 其 实 如 采 你 仔细 思考 一 下 固态 硬盘 的 写 
特性 就 会 发 现 ， 固 态 硬 盘 内 部 的 RAID 并 不 像 传统 磁盘 阵列 一 样 儿 个 硬 
盘 拼 成 一 个 组 那么 简单 ， 需 要 固态 硬盘 架构 的 巨大 改变 ! 


如 图 3-59 所 示 ， 对 传统 磁盘 RAID 5 来 说 ， 数 据 按 照 条 带 来 写 。 比 
如 一 个 磁盘 组 有 4 个 磁盘 ， 其 中 一 个 是 校 验 盘 ， 条 带 大 小 为 48KB， 被 
拆 成 三 个 16KB 写 到 三 个 副 上 ， 最 后 一 盘 是 校准 数据 一 一 三 个 16KB 数 据 
的 “ 腊 或 ” 值 。 修 改 任 何 一 个 16KB 数 据 块 ， 都 需要 重新 生成 校 验 数据 ， 
并 更 新 校 验 数据 块 。 
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图 3-59 ”传统 RAID 5 


那么 问题 来 了 : 固态 硬盘 可 以 这 么 做 吗 ? 不 行 ! 固态 硬盘 是 不 能 
重 写 的 ， 每 次 新 写 入 的 数据 都 会 写 到 新 的 地 方 。 不 过 这 也 没关系 ， 扩 
但 只 要 旧 的 数据 没有 被 擦 掉 ，RAID 条 市 还 
EA RHY ° 


又 有 了 新 的 问题 : 条 带 里 面 某 个 Die 上 的 Block 被 垃圾 回收 了 怎么 

JM? 结果 是 灾难 性 的 ，RAID 条 珊 失 效 了 。 看 到 这 里 估计 读者 朋友 也 发 

现 了 ， 在 固态 硬盘 里 面 做 RAID 最 重要 的 问题 就是 垃圾 回收 ， 要 保证 整 

a 因为 同时 被 搬 走 ， 所 以 旧 的 RAID 条 带 
WIFE T ° 


一 般 固 态 硬 盘 内 部 的 RAID 是 由 不 同 Die 上 的 Block 组 成 的 阵列 ， 它 
们 像 赤壁 之 战 中 曹操 的 铁 索 战 船 一 样 ， 绑 定 在 一 起 ， 同 时 被 写 ， 同 时 
被 垃圾 回收 ， 同 时 被 探 除 。 铁 索 战 船 的 好 处 是 稳定 ， 缺 点 是 不 够 灵 
活 。 固 态 硬 盘 内 部 的 RAID Block AT, DRR, ITE PERR 
费 。 比 如 进入 休眠 之 前 必须 把 没 写 完 的 条 市 剩余 空间 用 随机 数 填 满 ， 
增加 写 放 大 。RAID Block 个 头 大 ， 效 率 融 降低 了 ， 有 时 RAID 阵 列 中 某 
个 Block 有 效 数据 还 很 多 ， 但 是 因为 整个 阵列 有 效 数 据 少 ， 不 得 不 整体 
垃圾 回收 。 世 间 没 有 完美 的 事 ， 既 然 选择 了 稳定 的 铁 索 船 ， 那 就 要 承 
受 有 一 天 忽然 东南 风 大 作 ， 恰 好 被 黄 关 放火 烧 的 风险 o 


3.45 ”数据 随机 化 


我 们 在 写 内 存 的 时 候 ， 如 采 只 走 简 单 地 把 数据 加 纠 错 码 写 进去 ， 
那 会 遇 到 很 多 错误 ， 有 时 候 是 写 失 败 ， 有 时 候 是 读 出 来 的 数据 错误 率 
太 高 。 为 什么 ? 因为 数据 没有 随机 化 。 内 存 是 通过 控制 栅 施 加 电压 来 
存储 数据 的 ， 对 茶 些 写 入 的 数据 样式 很 人 敏感， 不 断 地 输入 全 0 或 者 全 
1， 很 容易 导致 内 存 内 部 电量 不 均衡 ， 从 而 造成 信号 抗 干扰 性 下 降 ， 导 
致 这 些 数据 在 内 存 中 可 靠 性 变 老 。 


从 物理 原理 上 看 ， 闪 存 写 入 数据 需要 做 随机 化 有 两 个 原因 : 
1) 让 0 和 1 的 分 布 充 分 隔离 。 图 3-60 是 MLC 内 部 的 各 个 存储 状态 电 
压 分 布 图 ， 实 线 是 随机 化 后 的 分 布 ， 每 个 状态 都 充分 隅 离 ; RE 


有 随机 化 的 分 布 ， 有 些 状态 的 分 布 明 显 变 宽 了 ， 随 大 时 间 流 逝 或 者 奉 
命 缩 短 ， 这 些 分 布 会 和 周边 发 生 交 集 ， 导 致 谈 数据 出 错 。 
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图 3-60 没有 随机 化 (虚线) 和 随机 化 ( 实 线 ) 电压 分 布 对 比 
2) 降低 相 邻 单元 之 间 的 耦合 电压 产生 的 影响 。 如 3-61 所 示 ， 对 一 


个 单元 影响 最 大 的 是 其 周围 的 4 个 直接 相等 的 单元 ， 这 些 单 元 的 状态 直 
接 影 响 到 中 间 单 元 的 国 值 电压 。 


Bitline 


图 3-61 周围 单元 对 中 心 单元 的 影响 


因此 ， 固 态 硬 盘 控 制 絮 或 者 内 存 内 部 都 有 数据 随机 化 模块 ， 它 对 
用 户 写 入 的 数据 加 入 扰 码 ， 使 最 终 写 入 内 存 的 数据 0 和 1 基本 保持 均 
衡 ， 减 小 数据 发 生 比 特 翻转 的 概率 。 一 般 内 存 厂 商会 推荐 使 用 AES 加 
密 算法 实现 数据 随机 化 。 


那么 数据 随机 化 放 在 哪个 位 置 呢 ? 那 自然 是 在 数据 最 终 写 到 闪存 
之 前 ，ECC 加 校 验 数据 之 后 ， 数 据 流 如 图 3-62 所 示 。 


ECC 加 校 验 Ecc 纠 错 


数据 随机 化 数据 去 随机 化 


图 3-62 ”数据 随机 化 数据 流 
在 图 3-62 中 ， 数 据 随 机 化 也 可 以 在 ECC 校 验 之 前 做 ， 两 者 顺序 可 交 


第 4 童 ”SSD 核 心 技术 : FTL 


FTL 算 法 的 优 劣 与 否 ， 直 接 决 定 了 SSD 在 性 能 (Performance) 、 可 
靠 性 (Reliability) ` MHE (Endurance) 等 方面 的 好 坏 ，FTL 可 以 说 
是 SSD 固 件 的 核心 组 成 。 


那么 什么 是 FTL? FTL 是 Flash Translation Layer. 〈 闪 存 转 换 层 ) 的 
缩写 ， 完 成 主机 (或 者 用 户 ，Host) 逻辑 地 址 空间 到 | 内 存 (Flash) 物 
理 地 址 空间 的 翻译 (Translation) ， 或 者 说 映射 (Mapping) 。SSD 每 
把 一 笔 用 户 逻 辑 数 据 写 入 闪存 地 址 空间 ， 便 记录 下 该 逻辑 地 址 到 物理 
地 址 的 映射 天 系 。 当 主机 想 读 取 该 数据 时 ，SSD 便 会 根据 这 个 映射 ， 从 
内 存 读 取 这 笔 数据 然后 返回 给 用 户 。 


完成 逻辑 地 址 空间 到 物理 地 址 空间 的 映射 ， 这 是 FTL 最 原始 且 基 本 
的 功能 。 事 实 上 ，SSD 中 的 FTL 还 有 很 多 事情 可 做 。SSD 使 用 的 存储 介 
质 一 般 是 NAND Flash 。 


SSD 的 存储 介质 除了 Flash， 还 有 RAM、3D XPoint 等 新 型 存储 介 
质 。 如 无 特别 说 明 ， 后 文 说 的 SSD 存 储 介质 都 是 指 NAND Flash， 翻 译 
为 NAND 闪 存 ， 简 称 闪 存 。 


闪存 有 一 些 重要 的 特性 ， 比 如; 


内 存 块 (Block) 需 先 氛 除 才能 写 入 ， 不 能 覆盖 写 (Update in 
Place) ? 


由 于 闪存 块 不 能 覆盖 写 ， 当 写 入 一 笔 新 的 数据 时 ， 不 能 直接 在 老 
地 方 更 改 (闪存 不 允许 在 一 个 闪存 页 (Page) 上 重复 写 入 ,一 次 擦 除 
只 能 写 入 一 次 ) ， 必 须 写 到 一 个 新 的 位 置 ， 因 此 ，FW (Firmware, El 
件 ) 需要 维护 一 张 逻辑 地 址 到 物理 地 址 的 映射 表 。 另 外 ， 往 一 个 新 的 
位 置 写 入 数据 ， 会 导致 老 位 置 上 的 数据 无 效 化， 这 些 数据 就 变 为 了 垃 
圾 数据 。 垃 圾 数据 会 占用 闪存 空间 ， 当 闪存 可 用 空间 不 够 时 ，FTL 需 要 
做 垃圾 回收 ， 即 把 若干 个 闪存 块 上 的 有 效 数 据 搬出 ， 写 到 某 个 新 的 闪 
存 块 ， 然 后 把 这 些 之 前 的 闪存 块 探 除 ， 得 到 可 用 的 闪存 块 ， 这 就 是 GC 
(Garbage Collection， 垃 圾 回收 ) ， 是 FTL 需 要 做 的 一 件 重要 的 事情 。 


2) 闪存 块 都 是 有 一 定 寿命 的 。 


每 氛 除 一 次 闪存 块 ， 都 会 对 闪存 块 造 成 磨损 ， 因 此 闪存 块 都 是 有 
寿命 的 ， 可 以 用 PE (Program/EraseCount) 数 衡量 。 我 们 不 能 集中 往 某 
几 个 闪存 块 上 写 数据 ， 不 然 这 几 块 很 快 就 会 因 PE 耗 尽 而 死亡 ， 这 不 是 
我 们 想 看 到 的 。 我 们 期 望 所 有 闪存 块 都 用 来 均 摊 数据 的 写 入 ， 而 不 是 
有 些 块 飞快 磨损 ， 而 其 他 块 毫 无 作为 。 所 以 FTL 需 要 做 Wear Leveling. 
计数 据 写 入 均 摊 到 每 个 内 存 块 上 ， 即 让 每 个 块 磨损 都 差不多 ， 从 而 保 
证 SSD 具 有 最 大 的 数据 写 入 量 。 


3) 每 个 内 存 块 读 的 次 数 是 有 限 的 ， 读 得 太 多 了 ， 上 面 的 数据 便 会 
出 错 ， 造 成 读 干 扰 (Read Disturb) 问题 。 


FTL 需 要 处 理 读 干 扰 问 题 ， 当 某 个 内 存 块 读 的 次 数 将 要 达到 一 定 靖 
值 时 ，FTL 需 要 把 这 些 数 据 从 该 内 存 块 上 搬 走 ， 从 而 避免 数据 出 错 。 


4) 闪存 的 数据 保持 (Data Retention) 问题 。 


由 于 电荷 的 流失 ， 存 储 在 内 存 上 的 数据 是 会 丢失 的 。 这 个 时 间 长 
则 十 多 年 ， 短 则 几 年 、 几 个 月 ， 甚 至 更 短 (这 是 在 常温 下 ， 如 果 是 在 
高 温 环 境 下 ， 电 和 荷 流 失速 度 会 加 快 ， 数 据 保存 的 时 间 就 更 短 了 ) 。 


如 果 SSD 不 上 电 ，EFTL 对 此 也 是 襄 无 办 法 ， 因 为 没有 运行 机 会 。 但 
一 旦 上 电 ，FTL 就 需要 对 此 做 点 什么 ， 比 如 扫描 闪存， 发 现 是 否 存在 数 
据 保持 问题 ， 如 果 存 在 ， 则 需要 搬 动 数据 ， 防 串 于 未 然 。 好 的 FTL， 就 
需要 有 处 理 数 据 保持 问题 的 能 力 。 


T" 5) 闪存 天 生 就 有 坏 块 。 另 外 ， 随 着 SSD 的 使 用 ， 也 会 产生 新 的 坏 


坏 块 的 症状 是 擦 写 失 败 或 者 读 失 败 (ECC 不 能 纠正 数据 错误 ) 。 
坏 块 管理 也 是 FTL 的 一 大 任务 。 


6) 对 MLC 或 TLC 来 说 ， 存 在 Lower Page corruption 的 问题 。 
即 在 对 Upper Page/ExtraPage (和 Lower Page 共 享 存储 单元 的 闪存 


页 ) 写 入 时 ， 如 果 发 生 异 常 掉 电 ， 也 会 把 之 前 Lower Page 上 成 功 写 入 的 
数据 破坏 挥 。 好 的 FTL， 应 该 有 机 制 尽 可 能 避免 这 个 问题 ; 


7) MLC 或 TLC 的 读 写 速度 都 不 如 SLC， 但 它们 都 可 以 配 成 SLC 模 
式 来 使 用 。 


好 的 FTL， 会 利用 该 特性 去 改善 SSD 的 性 能 和 可 靠 性 。 


上 面 说 的 这 些 特性 是 内 存 的 共性 ， 不 同 的 闪存 间 还 会 有 各 目的 问 
题 。FTL 除 了 完成 基本 的 地 址 映射 ， 还 需要 处 理 垃圾 回收 (GC) >` 
损 平 衡 (Wear Leveling) 、 坏 块 管理 、 读 干扰 (ReadDisturb) 处 理 、 
数据 保持 (Data Retention) 处 理 等 事情 。 随 着 内 存 质 量变 差 ，FTL 除 了 
完成 上 述 常 规 处 理 ， 还 需要 针对 具体 闪存 特性 ， 去 做 一 些 特殊 处 理 以 
获得 好 的 性 能 和 高 的 可 靠 性 。 


FTL 分 为 Host Based (基于 主机 ) 和 Device Based (基于 设备 ) 。 
Host Based 表 示 的 是 ，FTL 是 在 Host (主机 ) 端 实 现 的 ， 用 的 是 你 自己 
计算 机 的 CPU 和 内 存 资源 ， 如 图 4-1 所 示 。 
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图 4-1 FTL 在 主机 端 


ER TA gmBBmFusion-IOf£ Hl Host Based FTL， 业 界 还 有 方 一 信息 
科技 、 宝 存 等 公司 在 做 Host Based FTL ° 


相反 ，Device Based 表 示 的 是 ，FTL 是 在 Device (设备 ) 端 实现 
的 ， 用 的 是 SSD 上 的 控制 器 和 RAM 资 源 ， 如 图 4-2 所 示 。 
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图 4-2 FTL 在 设备 端 


目前 主流 SSD 都 是 Device Based FTL， 如 无 特别 说 明 ， 后 文 有 关 
FTL 的 论述 都 是 基于 Device Based] ° 4.10 9/8 X T Host Based FTL 的 介 
绍 ， 读 者 可 提前 了 解 。 


下 面 我 们 来 看 看 FTL 的 各 个 关键 技 术 。FTL 的 初衷 是 完成 逻辑 地 址 
Mops 到 物理 地 址 (或 物理 空间 ) 的 映射 ， 因 此 我 们 首先 看 
FILH Je 
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射 ， 还 有 混合 映射 (Hybrid Mapping) 


块 映 映 中 ， 以 内 存 的 块 为 映射 粒度 ， 一 个 用 户 逻 辑 块 可 以 映射 到 
任意 一 个 内 存 物 理 块 ， 但 是 映射 前 后 ， 每 个 页 在 块 中 的 偏 移 保持 不 
变 。 由 于 映射 表 只 需 存 储 块 的 映射 ， 因 此 存储 映射 表 所 需 空间 小 ， 但 
其 性 能 侍 ， 尤 其 是 小 尺寸 数据 的 写 入 性 能 ， 用 户 即 使 只 写 入 一 个 逻辑 
页 ， 也 需要 把 整个 物理 块 数据 先 读 出 来 ， 然 后 改变 那个 逻辑 页 的 数 
据 ， 最 后 再 整个 块 写 入 。 块 映射 有 好 的 连续 大 尺寸 的 读 写 性 能 ， 但 小 
尺寸 数据 的 写 性 能 是 非常 精 料 的 。 


图 4-3 中 ， 用 户 空间 被 划分 成 一 个 个 逻辑 区 域 (Region) ， 每 个 区 
域 和 内 存 块 大 小 相同 。 


U 副 一般 都 是 采用 块 映射 (U 盘 使 用 的 存储 介质 也 是 内 存 ， 因 此 也 
古 有 FTL 的 ) ， 适 合 大 数据 的 传输 ， 不 适合 小 尺寸 数据 的 写 入 。 所 以 请 
不 要 抱 钨 U 副 随机 性 能 ， 小 系统 还 是 选 择 SSD 吧 。 
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图 4-3” 块 映射 


页 轴 射 中 ， 以 内 存 的 页 为 映射 粒度 ， 一 个 逻辑 页 可 以 映射 到 任意 
一 个 物理 页 中 ， 因 此 每 一 个 页 都 有 一 个 对 应 的 映 味 关系， 如 图 4-4 所 
示 。 由 于 内 存 页 远 比 内 存 块 多 ， 因 此 需要 更 多 的 空间 来 存储 映射 表 。 
E e 尤其 体现 在 随机 写 上 面 。 为 追求 性 能 ，SSD 一 般 都 采 
页 映射 。 


图 4-4 中 ， 用 户 空 间 被 划分 成 一 个 个 的 逻辑 区 域 ， 每 个 区 域 和 闪存 
页 大 小 相同 。 


实际 中 逻辑 区 域 大 小 可 能 小 于 闪存 页 大 小 ， 一 个 内 存 页 可 容纳 知 
干 个 逻辑 区 域 数据 。 


混合 映 冉 古 块 映 喘 和 页 映射 的 结合 ， 如 图 4-5 所 示 。 一 个 逻辑 块 映 
射 到 任意 一 个 物理 块 ， 但 在 块 中 ， 每 个 页 的 偏 移 并 不 是 固定 不 动 的 ， 
块 内 采用 页 有 映射 的 方式 ， 一 个 逻辑 块 中 的 逻 往 页 可 以 映射 到 对 应 物理 
块 中 的 任意 页 。 因 此 ， 它 的 映射 表 所 需 空间 以 及 性 能 都 是 介 于 块 映射 
FREITZ EHS o 
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图 4-4 
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图 4-5 HARIT 
图 4-5 中 ， 用 户 空间 划分 成 一 个 一 个 逻辑 区 域 ， 逻 辑 区 域 和 闪存 块 
大 小 相同 。 每 个 逻辑 块 对 应 厦 一 个 内 存 块 ， 但 逻辑 块 内 部 又 分 成 一 个 
个 逻辑 页 ， 与 对 应 内 存 块 中 的 内 存 页 随意 对 应 。 
下 面 对 块 映射 、 页 映射 和 混合 映射 进行 了 对 比 ， 如 表 4-1 所 示 。 


表 4-1 不 同 映 射 之 间 的 比较 
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随机 写 性 能 
随机 读 性 能 


映射 表 大 小 


如 无 特别 说 明 ， 我 们 接 下 来 讲 的 FTL 都 是 基于 页 映射 的 ， 因 为 现在 
SSD 基 本 都 站 采用 这 种 映射 方式 。 


4.2.2 EJERE 


用 户 通 过 LBA (Logical Block Address, 39 583tHE) 访问 SSD， 
每 个 LBA 代 表 着 一 个 逻辑 块 (大 小 一 般 为 512B/4KB/8KB...…...) ， 我 们 
把 用 户 访问 SSD 的 基本 单元 称 为 逻辑 页 (Logical Page) 。 而 在 SSD 内 
部 ，SSD 主 控 是 以 内 存 页 为 基本 单元 读 写 内 存 的 ， 我 们 称 内 存 页 为 物理 
页 (Physical Page) 。 用 户 每 写 入 一 个 数据 页 ，SSD 主 控 就 会 找 一 个 物 
理 页 把 用 户 数 据 写 入 ，SSD 内 部 同时 记录 了 这 样 一 条 映射 (Map) 。 有 
了 这 样 一 个 映射 关系 后 ， 下 次 用 户 需 要 读 某 个 逻辑 页 时 ，SSD 就 知道 从 
内 存 的 哪个 位 置 把 数据 读 取 上 来 ， 如 图 4-6 所 示 。 
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SSD 内 部 维护 了 一 张 逻辑 页 到 物理 页 地 址 转换 的 映射 表 (Map 
Table) 。 用 户 每 写 入 一 个 逻辑 页 ， 就 会 产生 一 个 新 的 映射 关系 ， 这 个 
映射 关系 会 加 入 (第 一 次 写 ) 或 者 更 改 Aaa) 映射 表 。 当 读 取 某 
个 逻辑 页 时 ，SSD 首 移 查 找 映 射 表 中 该 逻辑 页 对 应 的 物理 页 ， 然 后 再 访 
问 内 存 读 取 相应 的 用 户 数据 。 


由 于 内 存 页 和 逻辑 页 大 小 不 同 ， 一 般 前 者 大 于 后 者 ， 所 以 实际 上 
不 会 是 一 个 逻辑 页 对 应 一 个 物理 页 ， 而 是 奉 干 个 逻辑 页 写 在 一 个 物理 
页 中 ， 罗 辑 页 其 实 是 和 子 物理 页 一 一 对 应 的 。 


张 映 射 表 有 多 大 呢 ? 


这 里 假设 我 们 有 一 个 256GB 的 SSD， 以 4KB 大 小 的 逻辑 页 为 例 ， 那 
么 用 户 空 间 一 共有 64M (256GB/AKB) 个 逻辑 页 ， 也 就 意味 着 SSD 需 要 
有 能 容纳 64M 条 映射 关系 的 映射 表 。 映 射 表 中 的 每 个 单元 (entry) ff 
储 的 就 是 物理 地 址 (Physical Page Address) ， 假 设 其 为 4 字 贡 
(32bits) ， 那 么 整个 映射 表 的 大 小 为 64Mx4B=256MB。 一 般 来 说 ， 映 
射 表 大 小 为 SSD 容 量 大 小 的 千 分 之 一 。 


准确 来 说 ， 映 射 表 大 小 是 SSD 容 量 大 小 的 W1024。 前 提 条 件 是 : 映 
射 页 大 小 为 4KB， 物 理 地 址 用 4Byte 表 示 。 这 里 假设 了 SSD 内 部 映射 粒 
度 等 于 逻辑 页 大 小 ， 当 然 它 们 可 以 不 一 样 。 


对 于 绝 大 多 数 SSD， 我 们 可 以 看 到 上 面 都 有 板 载 DRAM， 其 主要 作 
用 吏 是 存储 这 张 映 射 表 ， 如 图 4-7 所 示 。 在 SSD 工 作 时 ， 全 部 或 绝 大 部 
分 的 映射 表 都 可 以 放 在 DRAM 上 ， 了 轴 射 关系 可 以 快速 访问 。 


X 
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图 4-7 带 DRAM 的 SSD 架 构 


但 有 些 入 门 级 SSD 或 者 移动 存储 设备 (比如 eMMC、UFS) ， 出 于 
成 本 和 功 耗 考虑 ， 它 们 采用 DRAM-Less 设 计 ， 即 不 带 DRAM， 比 如 经 
典 的 Sandforce 主 控 ， 它 并 不 支持 板 载 DRAM， 那 么 它 的 映射 表 存 在 哪 
E? 它 采 用 二 级 映射 〈 见 图 4-8) 。 一 级 映射 表 常 驻 SRAM， 二 级 映 
射 表 小 部 分 缓存 在 SRAM， 大 部 分 都 存放 在 闪存 上 。 


二 级 表 就 是 L2P (Logical address To Physical address, 39 58303 £l] 
物理 地 址 转换 ) 表 ， 它 被 分 成 一 块 一 块 (Region) 的 ， 大 部 分 存储 在 
内 存 中 ， 小 部 分 缓存 在 RAM 中 。 一 级 表 则 存储 这 些 块 在 内 存 中 的 物理 
地 址 ， 由 于 它 不 是 很 大 ， 一般 都 可 以 完全 放 在 RAM 中 。 


SSD 工 作 时 ， 对 带 DRAM 的 SSD 来 襄 ， 只 需要 查找 DRAM 当 中 的 映 
射 表 ， 获 取 到 物理 地 址 后 访问 内 存 便 会 得 到 用 户 数据 ， 这 期 间 只 需要 
访问 一 次 闪存 。 而 对 不 带 DRAM 的 SSD 来 说 ， 它 首先 会 查看 该 逻辑 页 对 
应 的 映射 关系 是 否 在 SRAM 内 : 如 果 在 ， 直 接 根 据 映 射 关 系 读 取 内存 ; 
如 果 不 在 ， 那 么 它 首 先 需 要 把 映射 关系 从 闪存 中 读 取 出 来 ， 然 后 再 根 
据 这 个 映射 关系 读 取 用 户 数据 ， 这 了 就 意味 着 相 比 于 有 DRAM 的 SSD， 它 
e a a 底层 有 效 带宽 减 小 ， 如 

4-9 所 示 。 
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图 4-8 MERRI 


图 4-9 不 带 DRAM 的 SSD 架 构 


对 顺序 读 来 说 ， 映 射 关 系 连 续 ， 因 此 一 次 映射 块 的 读 ， 可 以 满足 
很 多 用 户 数据 的 读 ， 也 意味 着 DRAM-less 的 SSD 可 以 有 好 的 顺序 读 性 
能 。 但 对 随机 读 来 说 ， 上 映射 天 系 分 做， 一 次 映射 天 系 的 加 载 基 本 只 能 
满足 一 笔 逻 辑 页 的 读 ， 因 此 对 随机 读 来 说 ， 需 要 访问 两 次 内 存 才 能 完 
成 读 操 作 ， 随 机 读 性 能 束 不 是 那么 理想 了 。 


4.2.0 HMB 


映射 表 除 了 可 以 放 在 板 载 DRAM、SRAM 和 闪存 中 ， 它 还 可 以 放 到 
主机 的 内 存 中 。NVME1.2 (及 后 续 版 本 ) 有 个 重要 的 功能 就 是 HMB 
(Host Memory Buffer， 主 机 高 速 缓冲 存储 器 ) : 主机 在 内 存 中 专门 划 
出 一 部 分 空间 给 SSD 用 ，SSD 可 以 把 它 当 成 目 己 的 DRAM 使 用 。 因 此 ， 
映射 表 完 全 可 以 放 到 主机 端的 内 存 中 去 ， 如 图 4-10 所 示 。 


在 性 能 上 ， 它 应 该 介 于 带 DRAM 和 不 带 DRAM 《映射 表 绝 大 多 数 
存放 在 内 存 ) 之 间 ， 因 为 SSD 访 问 主 机 端 DRAM 的 速度 肯定 比 访问 SSD 


端 DRAM 的 速度 要 慢 ， 但 还 是 比 访问 内 存 的 速度 ( 约 40ps) 要 快 。 
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图 4-10 ”基于 HMB 的 SSD 架 构 


MarvellfECES (Consumer Electronics Show) 2016 上 发 布 了 新 款 
SSD 主 挖 “88NV1140”， 是 第 一 蒜 实 现 HMB 功 能 的 主 控 。 


江波 龙 2017 年 发 布 了 目前 世界 上 最 小 尺寸 的 SSD 
(11.5mmx13mm) : P900 系 列 ， 该 产品 支持 HMB 功 能 。 


图 4-11 ”Marvell 主 控 支持 HMB 


HMB 功 能 允许 主 控 像 使 用 SSD 上 的 DRAM 一 样 使 用 主机 DRAM ° 
具体 说 来 ， 就 是 主机 在 主 存 中 专门 划 出 一 块 内 存 给 SSD 使 用 ， 该 内 存在 
物理 上 可 以 不 连续 ，SSD 不 仅 可 以 用 它 来 存放 映射 表 ， 还 可 以 用 它 来 缓 
存 用 户 数据 ， 具 体 怎 么 用 ， 取 决 于 $SD 设 计 者 。 
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* Spec Exclusive Use 
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preserve/reassign buffer after RTD3 
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图 4-12 HBM 介 绍 


如 前 所 述 ，SSD 有 两 种 设计 ， 一 种 是 带 DRAM 的 ，DRAM 用 于 缓存 
数据 和 存放 映射 表 ， 目 前 主流 SSD 都 是 带 DRAM 的 ; 还 有 一 种 就 是 不 带 
DRAM (DRAM-Less) 的 ， 绥 存 数据 用 主 控 上 的 SRAM， 了 映射 表 采 用 
两 级 映射 一 一 级 映射 和 少量 的 二 级 映射 放 SRAM， 二 级 映射 数据 大 多 
数 存 放 在 闪存 上 ， 这 种 DRAM-Less 设 计 多 为 入 门 级 SSD 使 用 。 


带 DRAM 的 SSD 设 计 ， 其 优势 是 性 能 好 ， 映 射 表 完全 可 以 放 在 
DRAM 上 ， 查 找 和 更 新 迅速 ;劣势 就 是 由 于 增加 了 一 个 DRAM， 提 高 
了 SSD 的 成 本 ， 也 加 大 了 SSD 的 功 耗 。DRAM-Less 的 SSD 设 计 则 正好 相 
bt. 优势 是 成 本 和 功 耗 相对 低 ， 缺 点 是 性 能 差 。 由 于 映射 表 绝 大 多 数 
存储 在 闪存 中 ， 对 随机 读 来 说 ， 每 次 读 用 户 数据 ， 需 要 访问 两 次 闪 
存 ， 第 一 次 是 获取 映射 表 ， 然 后 才 是 真正 读 取 用 户 数据 。 


NVMe1.2HMB 的 出 现 ， 以 及 Marvell 新 主 控 对 HMB 的 支持 ， 为 SSD 
的 设计 提供 了 新 的 思路 。SSD 可 以 自己 不 带 DRAM， 完 全 用 主机 的 
DRAM， 用 以 缓存 数据 和 了 映射 表 。 拿 随机 读 来 襄 ，DRAM-Less 访 问 映 
射 表 的 时 间 是 读 闪 存 的 时 间 。 带 DRAM 的 SSD， 其 访问 映射 表 的 时 间 是 
读 DRAM 的 时 间 ;， 而 对 HMB 来 说 ， 其 访问 映射 表 的 时 间 是 访问 主机 
DRAM 的 上 时间， 接近 DRAM SSD， 远 远 短 于 DRAM-Less SSD 或 者 
eMMC ^ UFS (也 是 DRAM-Less) 。 下 面 是 Marvell 在 2015 年 闪存 峰会 
上 给 的 一 张 图 ( 见 图 4-13， 非 原 图 ， 有 改动 ) » 
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图 4-13 ”不同 SSD 染 构 下 查询 映 喘 表 的 时 延 对 比 


基于 HMB 的 FW 实 现 比较 复杂 ， 因 为 要 考虑 到 即使 主机 不 文 持 
HMB，SSD 还 要 能 正常 工作 。 


4.2.4 FEST Sl 


映射 表 在 SSD 掉 电 前 ， 是 需要 把 它 写 入 到 闪存 中 去 的 。 下 次 上 电 
初始 化 时 ， 需 要 把 它 从 内 存 中 部 分 或 全 部 加 载 到 SSD 的 缓存 (DRAM 
或 者 SRAM) 中 。 随 着 SSD 的 写 入 ， 缓 存 中 的 了 映射 表 不 断 增 加 新 的 映 
味 天 系 ， 为 防止 异常 掉 电导 人 致 这 些 新 的 映 映 关 系 丢失 ，SSD 的 固件 不 
仅仅 只 在 正常 掉 电 前 把 这 些 映 喘 天 系 刷 新 到 内 存 中 去 ， 而 是 在 SSD 运 
行 过 程 中 ， 按 照 一 定 策 上 略 把 映 味 表 写 进 内 存 。 这 样 ， 即 使 发 生 异 津 挥 
T a a 


那么 ， 什 么 时 候 会 触发 映射 表 的 写 入 呢 ? 一 般 有 以 下 几 种 情况 : 
-者 产生 的 映射 天 系 素 积 到 一 定 的 靖 值 

用 户 写 入 的 数据 量 达到 一 定 的 靖 值 

-内存 写 完 内 存 块 的 数量 达到 一 定 的 病 值 


全 部 更 新 表示 的 是 缓存 中 映射 表 (干净 的 和 不 干净 的 全 部 写 入 
到 内 存 ， 增 量 更 新 的 意思 是 只 把 新 产生 的 (不 干净 的 ， 映射 关 系 刷 入 
到 | 内存 中 去 。 显 然 ， 相 比 后 者 ， 前 者 需要 写 入 更 多 的 数据 量 ， 一 方面 
影响 用 户 写 入 性 能 和 时 延 (latency) ， 男 一 方面 增加 写 放 大 ， 但 其 好 
处 古 固件 实现 简单 ， 不 需要 去 知道 哪些 映 冉 关系 是 干 疤 的 ， 哪 些 是 不 
于 净 的 。 固 件 算法 在 决策 的 时 候 ， 应 根据 软 便 件 典 构 ， 绿 合 考虑 ， 使 
用 最 适合 目 己 系统 的 映射 表 写 入 策略 。 


4.8 Bi 


4.3.1 Xy en m 


垃圾 回收 是 FTL 的 一 个 重要 任务 。 我 们 虚构 一 个 小 小 的 SSD 空 间 来 
讲 垃圾 回收 原理 ， 以 及 与 之 紧密 联系 的 WA (Write Amplification， 写 放 
K) 和 OP (Over Provisioning， 预 留 空间 ) 等 概念 。 


我 们 假设 该 SSD 底 层 有 4 个 通道 (CHO-—CH3) ， 连 接着 4 个 Die 
(每 个 通道 上 的 Die 可 并 行 操 作 ) ， 假 设 每 个 Die 只 1 有 6 个 闪存 块 
(Block0~Block5) ， 所 以 一 共 24 个 闪存 块 。 每 个 闪存 块 内 有 9 个 小 方 
块 ， 每 个 小 方块 的 大 小 和 逻辑 页 大 小 一 样 。24 个 内 存 块 中 ， 我 们 假设 
其 中 的 20 个 内 存 块 大 小 为 SSD 容 量 ， 就 是 主机 端 看 到 的 SSD 大 小 ;另外 
4 个 闪存 块 是 超出 SSD 容 量 的 预 留 空间 ， 我 们 称 之 为 OP， 如 图 4-14 所 
示 “。 


好 ， 一 个 SSD 摆 在 我 们 面前 ， 下 面 开 始 写 入 了 。 


我 们 顺序 写 入 4 个 逻辑 页 ， 分 别 写 到 个 同 通 道 的 Die 上 ， 这 样 写 的 
目的 古 增加 属 层 的 并 行 性 ， 提 升 写 入 性 能 ， 如 图 4-15 所 示 。 


我 们 继续 顺序 写 入 ， 固 件 则 把 数据 交错 写 入 到 各 个 Die 上 ， 直 到 写 
满 整个 SSD 空 间 (主机 端 看 到 的 ) 如 图 4-16 所 示 。 


图 4-14 ”虚构 的 小 小 SSD 空 间 


Block 0 


Block 1 


Block 2 


Block 3 


Block 4 


Block 5 


图 4-15 主机 写 入 4 个 多 车 
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图 4-16 ”用户 空 间 写 满 后 的 SSD 


整个 盘 写 满 了 (从 用 户 角 度 来 看 也 就 是 整个 用 户 空间 写 满 了 ， 但 
在 内 存 空间 ， 由 于 OP 的 存在 ， 并 没有 写 满 ) 。 那 如 果 想 写 入 更 多 ， 应 
别 无 他 法 ， 只 能 把 看 过 的 内 容 制 爱 删除 了 ， 腾 出 空间 放 新 
X o 


下 面 我 们 继续 找 入 。 


假设 还 是 从 逻辑 页 1 开始 写 入 。 这 时 ，SSD 会 把 新 写 入 的 逻辑 页 
入 到 所 谓 的 OP 空间 。 对 SSD 来 说 ， 不 存在 什么 用 户 空间 和 OP 空 si]. 下 F 
只 会 看 到 闪存 空间 。 主 机 端 来 数据 ，SSD 就 往 闪 存 空 间 写 。 图 4-17 中 出 
现 了 深 色 方块 ， 怎 么 回 事 ? 因为 逻辑 页 1~4 的 数据 已 更 新 ， 写 到 新 的 
地 方 ， 那 么 之 前 那个 位 置 上 的 逻辑 页 1~-4 数 据 就 失效 了 ， 过 期 了 ， 变 


坪 圾 了 。 用 户 更 新 数据 ， 由 于 内 存 不 能 在 原 位 置 禾 盖 写 ， 固 件 只 能 田 
p SERVIS ELEC SE SURFER HAGI, JE Br 


继续 顺序 写 入 ， 深 色 方块 越 来 越 多 (垃圾 数据 越 来 越 多 ) 。 所 有 
内 存 空间 都 写 满 后 ， 小 SSD 就 是 下 面 这 个 样子 ( 见 图 4-18) ° 


等 所 有 Die 上 的 Block 5 写 满 后 ， 所 有 Die 上 的 Block 0 也 全 部 变色 了 
(这 些 数据 都 是 垃圾 ) 。 


现在 不 仅 整个 用 户 裤 间 都 写 满 ， 整 个 内 存 空 间 也 都 满 了 。 如 采用 
户 想 继续 写 入 后 续 的 逻辑 页 (36 之 后 的 ) ， 该 怎么 办 呢 ? 


这 时 ， 就 需要 垃圾 回收 了 。 我 们 暂时 从 之 前 的 SSD 系 统 中 走出 来 ， 
看 看 什么 是 垃圾 回收 。 


CHO CHI CH2 CH3 


EN 5 NEM o ONE "Uo a 


Block 0 


Block 1 


Oof I W|I 
ON | 上 | ceo[o[24|r 


Block 2 


— 
© 
oo 


- 
J 

- | -一 
wN 
NISO 


Block 3 
133 


152| 1 
Block 4 sr ier ves ose [ez es io es per hen 164 
172 


E 
nm 


un 
ON 


Block 5 


— | 一 
oo [CO 
© |% 


CHO CHI CH2 CH3 


L 1| 5| 9| 2 


| 6| 10|] 3| 7| B| 4| 8| 12 

Block 0 E EEE 
Block 1 58 52| 56| 60| 
EEE E EE EE E 

n| or si| 74 781 92 | 751 79 | 85 | 76| sof 84 

Block2 | 85| 89| 93| 86| 90| 94| s7| 91| 95 
和 

110 

Block 3 122 | 126 | 130 | 123 | 127 | 131 | 124 | 128 | 132 
134 | 138 | 142 143 | 136 

150 | 154 | 147 | 151 | 155 

Block 4 158 | 162 | 166 | 159 | 163 | 167 | 160 | 164 | 168 | 
he [s pm 170 175 | 179 | 172 
本 


Block 5 Esas zi | ap as | 22 | 1| 19 | 25 16] aa 
图 4-18 ”闪存 空间 写 满 
需要 说 明 的 是 ， 实 际 中 是 不 会 等 所 有 闪存 空间 都 写 满 后 才 开 始 做 
GC 的 ， 而 是 在 满 之 前 就 触发 GC， 这 里 只 是 为 描述 GC 而 做 的 假设 。 


垃圾 回收 ， 就 是 把 某 个 内 存 块 上 的 有 效 数据 〈 图 4-19 中 浅 色 方 块 ) 
读 出 来 ， 重 写 ， 然 后 把 该 内 存 块 擦 除 ， 殊 得 到 新 的 可 用 内 存 块 了 。 


Block x 


图 4-19 垃圾 回收 示例 


图 4-19 中 ，Block x 上 面 有 效 数 据 为 A`、B、C，Block y EMAZ 
据 为 D、E、F、G， 其 余 方块 为 无 效 数据 。 垃 圾 回收 机 制 就 是 移 找 一 个 
可 用 Block z， 然 后 把 Block x 和 Block y 的 有 效 数 据 搬移 到 Block zE m 
去 ， 这 样 Block x 和 Block y 上 面 就 没有 任何 有 效 数 据 ， 可 以 擦 除 变 成 两 
个 可 用 的 闪存 块 ， 如 图 4-20 所 示 。 


Block x Block x 


图 4-20” 氛 除 垃圾 数据 块 变 成 可 用 数据 块 
再 回 到 我 们 的 小 小 SSD 系 统 中 来 。 


上 例 中 ， 由 于 我 们 是 顺序 写 入 ， 垃 圾 集中 在 Block 0 上 ， 上 面 没有 
任何 有 效 数 据 ， 我 们 把 它们 摊 除 就 可 以 腾 出 新 的 写 入 空间 ， 用 户 就 可 
以 把 新 的 数据 写 入 到 垃圾 回收 完成 的 Block 0 上 了 。 从 这 个 例子 中 我 们 
可 以 看 出 : 顺序 写 ， 即 使 是 内 存 空间 写 满 后 的 写 (Ful Drive 写 ) ， 人 性 
d rs 因为 垃圾 回收 可 以 很 快 完 成 (也许 只 需要 一 个 擦 除 
A o 


但 现实 是 残酷 的 ， 用 户 写 和 数据， 更 多 的 可 能 是 随机 写 和 数据。 
下 面 是 一 个 内 存 空间 经 历 随机 写 满 后 的 样子 ( 见 图 4-21) 。 


isa Tros zr 
Block 0 |123 131 
164 
Block 1 |104| 98| 63. 
03 
57| 3|15 | 24 
Block 2 | 106. 
EGENT 106 [sp ss 1o 20 167| 49 
172| 160| 80 
Block 3 141 66| 56| 61|19|163| 


Tios | a [164 no [186 
Gozo] s [15e [59 ]17s [nas [72 | [ss [s]. ee 
Block4 Esa p ns [16s | 34| 2 [ie [ 16 156] 66 | 30 79 [n7 
s uz | o| 92 [22] ss [155 nl sl sl 15 [26 
"zo [157 [os [18 15 [11 [2| 55 ED 72 [26] 1 
Blocks [1a [12] 2o [18i | 82 [12s 77 [16s |- 5 [s [mr | 22 
ol ws pu [ ss 8] eo 17s [2s] 22 [166155] 9 


图 4-21 ”随机 写 满 内 存 空 间 后 的 SSD 


用 户 如 采 继 续 往 SSD 上 写 入 数据 ， 那 么 SSD 怎 么 处 理 ? 当然 需要 做 
垃圾 回收 。 不 过 ，SSD 内 部 状况 比 之 前 看 到 的 复杂 多 了 ， 垃 圾 数据 分 散 
在 每 个 内 和 存 块 上 ， 而 不 先 集 中 在 茶 儿 个 内 存 块 上 。 这 个 时 候 ， 如 何 挑 

选 需要 回收 的 内 存 块 呢 ? 答案 显而易见 ， 挑 垃圾 比较 多 的 内 存 块 来 回 
收 ， 因 为 有 效 数 据 少 ， 要 浇 移 的 数据 少 ， 这 这 样 腾 出 空 内 存 块 的 速度 


” ”对 上 面 每 个 内 存 块 的 垃圾 数 ( 深 色 方 块 )》 做 个 统计 ， 如 表 4-2 所 
ZR œ 


表 4-2 ”每 个 闪存 块 上 垃圾 数据 统计 


BLOCK 0 
BLOCK 1 
BLOCK 2 
BLOCK 3 
BLOCK 4 


由 于 是 同时 往 4 个 通道 上 写 ， 我 们 需要 每 个 通道 都 有 一 个 空 内 的 办 
存 块 ， 因 此 ， 我 们 做 垃圾 回收 时 ， 不 是 回收 某 个 内 存 块 ， 而 是 所 有 通 
道上 都 要 挑 一 个 。 一 般 选 择 每 个 Die 上 块 号 一 样 的 所 有 闪存 块 做 垃圾 回 
收 。 上 例 中 ，Block 0 上 的 垃圾 数量 最 多 〈24 个 深 色 方块 ， 最 多 ) ， 
此 我 们 挑 Block 0 作为 垃圾 回收 的 内 存 块 (这 里 忽略 PE Count 等 因素 ， 

只 看 垃圾 数 ) 。 回 收 完 毕 ， 我 们 把 之 前 Block 0 上 面 的 有 效 数 据 ( 浅 色 

方块 ) 重新 写 回 到 这 些 闪 存 块 (这 里 ， 我 们 假设 回收 的 有 效 数 据 和 用 

p MERO 和 闪存 块 ， 实 际 上 ， 它 们 可 能 是 分 开 写 的 ) ， 如 图 4-22 
ZR ° 


10| 54|135| 68| 90| 10150] 100] 22|167| 126 | 119 
Block 1 |104| 98| 63| s5| 46| 94[148| 123| 7| 17|176| 59 
Block 2 
17| 84177|155| 3| 149|172] 160| soj 52| 20] 57| 
Block3 | 45| 78 |141|141| 70| 37|178| 66| 56| c1 sell63 
[106 | 135) 43| ss| os |166|172] 103 | 44| 164| 119 | 150] 
[172/1325 3|150| 79]173| 148 172 | 11[133|175| 68 
Block4 | 34| 118 |169| 34| 2162| 16156 | 66| 30| 79|117 
| 8| 12) 90| 92| 22] ss|153) sl| 83| 13 26] 
Blocks | 14|132 20|151| s2|128| 77|168| 9f 113 |111 22) 


图 4-22 ”做 完 垃圾 回收 后 的 Block 0 可 以 继续 写 入 数据 


这 时 ， 有 了 空闲 的 空间 白色 方块 ) ， 用 户 就 可 以 继续 写 入 数据 


江湖 传言 ，SSD 越 写 越 慢 。 没 错 ， 其 实 这 是 有 科学 依据 的 : 可 用 内 
存 空间 富裕 时 ，SSD 是 无 须 做 GC 的 ， 因 为 总 有 空 内 的 空间 可 写 。SSD 
使 用 早期 ， 由 于 没有 触发 GC， 无 须 额外 的 读 写 ， 所 以 速度 很 快 。 慢 慢 
地 会 发 现 SSD 变 慢 了 ， 主 要 是 因为 SSD 需 要 做 GC ° 


男 外 ， 从 上 面 的 例子 来 看 ， 如 采用 户 顺 序 写 的话 ， 垃 圾 比较 集 
中 ， 利 于 SSD 做 垃圾 回收 ， 如 采用 户 是 随机 写 的 话 ， 垃 圾 产生 比较 分 
地 ，SSD 做 垃圾 回收 相对 来 说 束 更 慢 ， 所 以 性 能 没有 前 者 好 。 因 此 ， 


TE GC 性 能 跟 用 户 写 入 数据 的 模式 〈 随 机 写 还 是 顺序 


4.3.2” 写 放大 


由 于 GC 的 存在 ， 就 有 一 个 问题 ， 用 尸 要 写 入 一 定 的 数据 ，SSD 为 
了 腾 出 空间 写 这 些 数 据 ， 需 要 额外 的 做 一 些 数据 的 搬移 ， 也 就 是 额外 
的 写 ， 最 后 往往 导致 SSD 往 内 存 中 写 入 的 数据 量 比 实际 用 户 写 入 SSD 的 
数据 量 多 。 因 此 ，SSD 中 有 个 重要 参数 ， 就 是 写 放 大 (WA, Write 


Amplification) : 
写 入 闪存 的 数据 量 
用 户 写 的 数据 量 


对 空 盘 来 说 (未 触发 GC) ， 写 放大 一 般 为 1， 即 用 户 写 入 多 少 炎 
据 ，SSD 写 入 闪存 也 是 多 少数 据 量 〈 这 里 忽略 SSD 内 部 数据 的 写 ， 如 映 
射 表 的 写 入 ) 。 在 SandForce 控 制 絮 出 来 之 前 ， 写 放大 最 小 值 为 1° 但 是 
由 于 SandForce 控 制 器 内 部 具有 实时 数据 压缩 模块 ， 它 能 对 用 户 写 入 的 
数据 进行 实时 压缩 ， 然 后 再 把 它们 写 入 到 内 存 ， 因 此 WA 可 以 做 到 小 于 
1。 举 个 例子 ， 用 户 写 入 8KB 数 据 ， 经 压缩 后 ， 数 据 变 为 4KB， 如 果 这 
个 时 候 还 没有 垃圾 回收 ， 那 么 写 放 大 就 只 有 0.5。 


来 看 看 GC 触发 后 ，WA 是 怎么 算 的 。 以 前 面 的 GC 为 例 ， 我 们 挑选 
每 个 Die 上 的 Block 0 做 垃圾 回收 ， 如 图 4-23 所 示 。 


号 大 大 = 


图 4-23 Block 0 数据 示意 


一 共 36 个 方块 ， 其 中 有 12 个 有 效 数 据 块 ， 我 们 做 完 垃 圾 回收 后 ， 
需 把 这 12 个 有 效 数据 块 写 回 ， 如 图 4-24 所 示 。 
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图 4-24 ”垃圾 回收 后 ， 将 有 效 数 据 写 回 Block 0 


后 面 还 可 以 写 入 24 个 方块 的 用 户 数据 。 因 此 ， 为 了 写 这 24 个 方块 
的 用 户 数据 ，SSD 实 际 写 了 12 个 方块 的 原 有 效 数 据 ， 再 加 上 该 24 个 方块 
的 用 户 数据 ， 总 共 写 入 36 个 方块 数据 ， 按 照 写 放大 定义 : 
WA-36/24-1.5 ° 


写 放 大 越 大 ， 意 味 着 额外 写 入 闪存 的 数据 越 多 ， 一 方面 磨损 内 
存 ， 减 少 SSD 寿 命 ， 男 一 方面 ， 写 入 这 些 额 外 数据 会 占用 讨 层 内 存 带 
宽 ， 影 响 SSD 性 能 。 因 此 ，SSD 设 计 的 一 个 目标 是 让 WA 尽量 小 。 减 小 
写 放 大 ， 可 以 使 用 前 面 提 到 的 压缩 办 法 (ERRE) ， 顺 序 写 也 可 以 
减 小 写 放 大 (垃圾 集中 ， 但 顺序 写 可 遇 不 可 求 ， 取 决 于 用 户 
Workload) ， 还 有 就 是 增 大 OP (这 个 可 控 ) e 


增 大 OP 为 何 能 减 小 写 放 大 ? 先 定义 OP 比例 = (内 存 空间 -用 户 空 
间 ) /用 户 空间 。 


还 是 以 前 面 的 SSD 空 间 为 例 ，SSD 容 量 是 180 个 小 方块 ， 当 OP 是 36 
个 小 方块 时 ， 整 个 SSD 闪 存 空间 为 216 个 小 方块 ，OP 比 例 是 
36/180=20%。 那 么 180 个 小 方块 的 用 户 数 据 平 均 分 摊 到 216 个 小 方块 
时 ， 每 个 小 方块 的 平均 有 效 数 据 为 180/216=0.83， 一 个 内 存 块 上 的 有 效 
数据 为 0.83x9=7.5， 也 就 是 一 个 内 存 块 上 面 平 均 有 7.5 个 浅 色 块 和 1.5 个 
深 色 块 。 为 了 写 1.5 个 用 户 数据 方块 ， 需 要 写 9 个 方块 的 数据 ( 原 有 7.5 
个 有 效 数据 ， 加 1.5 个 用 户 数据 ) ， 写 放大 是 9/1.5=6。 


如 果 整 个 SSD 闪 存 空 间 不 变 ， 还 是 216 个 小 方块 ， 调 整 OP 比例 至 72 
个 小 方块 (牺牲 用 户 空间 ，OP 比 例 50%) ， 因 此 ，SSD 容 量 就 变 成 144 
个 小 方块 。144 个 小 方块 的 用 户 数据 平均 分 摊 到 216 个 小 方块 时 ， 每 个 
小 方块 的 平均 有 效 数据 为 144/216=0.67， 一 个 闪存 块 上 的 有 效 数据 为 
0.67x9s6， 也 了 吏 是 一 个 内 存 块 上 面 平均 有 6 个 浅 色 块 和 3 个 深 色 块 。 为 了 
写 3 个 用 户 数据 方块 ， 需 要 写 9 个 方块 的 数据 〈 原 有 6 个 有 效 数 据 ， 加 3 
个 用 户 数 据 ) ， 写 放大 是 9/3=3。 


Block 0 


从 上 可 见 ，OP 越 大 ， 写 放大 越 小 。 很 好 理解 ，OP 越 大 ， 每 个 内 和 存 
块 有 效 数据 越 少 ， 垃 圾 越 多 ， 因 此 和 需要 重 写 更 少 的 数据 ， 因 此 写 放 大 
越 小 。 同 时 ， 由 于 GC 需要 重 写 的 数据 越 少 ，SSD 满 盘 写 性 能 也 越 好 。 


当然 ， 上 面 说 的 都 是 最 坏 的 情况 (垃圾 数据 平均 分 摊 到 每 个 内 存 
HRE) 。 现 实 是 ， 垃 圾 数据 大 多 数 时 候 并 不 是 平均 分 配 到 每 个 内 存 块 
EF， 有 些 块 上 的 坪 圾 多 ， 有 些 块 上 的 垃圾 少 ， 实 际 GC 挑 选 内 存 块 ， 厦 


挑 垃 圾 多 的 ， 因 此 ， 实 际 写 放 大 是 小 于 前 面 的 计算 值 的 。 
OP 大 小 和 写 放 大 以 及 SSD 耐 写 度 的 关系 如 图 4-25 所 示 。 


OP 与 写 放 大 、 耐 写 度 的 关系 


0% 20% 40% 60% 80% 100% 120% 140% 160% 


图 4-25 ”OP 大 小 对 写 放大 和 耐 写 度 的 影响 
总 结 一 下 WA 越 小 越 好 ， 因 为 越 小 意味 着 对 内 存 的 损耗 越 小 ， 可 
以 延长 内 存 使 用 奉命 ， 从 而 支持 更 多 的 用 户 数据 写 入 量 ; OP 越 大 越 
好 ，OP 越 大 ， 意 味 着 写 放 大 越 小 ， 也 意味 着 SSD 写 性 能 越 好 。 
影响 写 放 大 的 因素 主要 有 : 


-OP: OP 越 大 ，WA 越 小 。 


:用 户 写 入 的 数据 Pattern: 如 前 文 所 见 ， 如 果 数 据 都 是 顺序 写 入 ， 
GC 做 的 量 束 少 (最 好 的 情况 是 整个 内 存 块 都 是 无 效 数据 ， 只 需 擦 除 ， 
无 需 数据 搬移 ) ， 写 放大 小 。 

-GC 策略 ， 在 挑选 源 内 存 块 的 时 候 ， 如 果 不 挑选 有 效 数据 最 少 ( 垃 
圾 数据 最 多 ) 的 块 作为 源 内 存 块 ， 就 会 增加 写 放 大 ， 男 外 ， 控 制 后 台 
GC 产生 空 几 内 存 块 的 数量 ， 也 能 减 小 写 放 大 。 

:磨损 平衡 ， 为 平衡 每 个 内 存 块 的 擦 除 次 数 ， 需 要 数据 的 搬移 。 


: 读 干 扰 (Read disturb) 和 数据 保存 处 理 (Data Retention 
handling) : 数据 搬移 增加 写 放 大 。 


ER: 市 压缩 和 不 之 压缩 的 控制 右上 有 定 会 影响 写 放 大 。 
Trim: 有 没有 Trim， 对 写 放 大 影响 很 大 。 


4.3.8 di [B SCHO 


垃圾 回收 可 以 简单 地 分 为 三 步 : 

1) 挑选 源 内 存 块 。 

2) 从 源 内 存 块 中 找 有 效 数 据 。 

3) 把 有 效 数据 写 入 到 目标 内 存 块 。 


挑选 源 内 存 块 ， 一 个 第 见 的 算法 束 是 挑选 有 效 数 据 最 小 的 块 ， 这 
样 需 要 重 写 的 有 效 数 据 就 越 少 ， 写 放大 目 然 最 小 ， 回 收 一 个 块 付 出 的 
代价 也 最 小 。 那 么 ，Die 中 那么 多 内 存 块 ， 怎 么 束 能 一 下 子 找到 有 效 效 
据 最 小 的 那个 块 呢 ? 


这 需要 固件 在 写 用 户 数据 时 做 一 些 额外 的 工作 ， 即 记录 和 维护 每 
个 用 户 内 存 块 的 有 效 数 据 量 。 用 户 每 往 一 个 新 的 块 上 写 入 一 笔 用 户 数 
据 ， 该 内 存 块 上 的 有 效 数 据 数 就 加 1。 同 时 还 需要 找到 这 笔 数据 之 前 所 
在 的 块 (如 采 之 前 该 笔 数 据 曾 写 入 过 ) ， 由 于 该 笔 数 据 写 入 到 新 的 
块 ， 那 么 在 原 内 存 块 上 的 数据 束 变 无 效 了 ， 因 此 原 内 存 块 上 的 有 效 数 
据 量 应 该 减 1。 


还 是 以 前 面 的 小 型 SSD 为 例 : 


当 用 户 没 有 写 入 任何 数据 时 ， 所 有 闪存 块 上 的 有 效 数据 都 为 0， 如 
表 4-3 所 示 。 


表 4-3 ”初始 化 每 个 内 存 块 的 有 效 数 据 


PERS RANEE 
o 4 | ， — 
| | | i 


当 往 Block 0. EE A32$8711^ 2^ 3^ 4j&i, Block 0 的 有 效 数 据 就 变 
成 4 ( 见 图 4-26 和 表 4-4) 。 


O 当 用 户 空间 写 满 后 ， 每 个 内 存 块 上 有 效 数 据 如 图 4-27 和 表 4-5 下 所 
ZN ° 
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由 于 逻辑 页 1、2、3、4 写 入 到 Block 5 E, Block 5 上 的 有 效 数 据 变 
成 4， 所 以 逻辑 页 1、2、3、4 在 之 前 所 在 的 Block 0 上 变 成 无 效 ， 因 此 在 
写 入 逻辑 页 1、2、3、4 的 上 时候， 不 仅 要 更 狐 Block 5 上 的 有 效 数据 为 4， 
还 应 该 把 Block 0 上 的 有 歼 数 据 相 应 地 减少 4， 如 表 4-6 所 示 。 
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图 4-26 Block 0 上 写 入 4 个 逻辑 页 
表 4-4 Block 0 有 效 数 据 更 新 为 4 
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图 4-27 首次 写 满 用 户 空间 
表 4-5 首次 用 户 空间 写 满 后 内 存 块 上 有 效 数据 统计 
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图 4-28 ”用户 空间 写 满 后 继续 写 入 4 个 逻辑 页 
表 4-6 ”覆盖 写 后 SSD 中 闪存 块 有 效 数 据 统计 


闪存 块 号 有 效 数据 量 有 效 数据 量 


由 于 固件 维护 了 每 个 内 存 块 的 有 效 数 据 量 ， 因 此 在 GC 的 时 候 能 快 
速 找 到 有 效 数 据 最 少 的 那个 块 。 


挑选 有 效 数据 最 少 的 那个 块 作为 源 | 内 存 块 ， 这 种 BPA 算 法 叫 作 
Greedy 算 法 ， 是 绝 大 多 数 SSD 采 用 的 一 种 策略 。 除 此 之 外 ， 还 有 其 他 的 
BPA 算 法 。 比 如 ， RA EE Rd 
块 时 ， 还 把 内 存 块 的 擦 写 次 数 考 虑 进去 了 ， 这 其 实 暗 成 着 磨损 平衡 算 
法 (后 面 会 详细 介绍 ) 。 挑 选 内 存 块 时 ， 4-4 Pis A HKA AUN 


据 最 少 的 (快速 得 到 一 个 新 的 内 存 块 ; ; 另 一 方面 ， 我 们 期 望 挑 选 氛 
写 次 数 最 小 的 (分 摊 擦 写 次 数 到 每 个 内 存 块 ;。 如 采 两 者 都 具备 ， 那 
最 好 不 过 了 。 但 现实 是 ， 擦 写 次 数 最 小 的 内 存 块 ， 有 效 数据 未 必 最 
D, 有 效 数据 最 少 的 内 存 块 ， 擦 写 次 数 坟 必 最 小 。 因 此 ， 需 要 给 有 效 
数据 和 擦 写 次 数 设 定 一 个 权重 因子 ， 进 而 得 到 一 个 最 优 的 选择 。 这 种 
方法 的 好 处 有 古 可 以 把 磨损 平衡 算法 做 到 GC 中 来 ， 可 以 不 需要 额外 的 磨 
损 平 衡 算 法 ， 候 点 是 相对 单纯 只 看 有 效 数据 策略 的 GC， 由 于 挑选 的 内 
存 块 可 能 有 效 数据 很 多 ， 因 此 写 放大 变 大 ，GC 性 能 变 差 。 


其 实 还 有 很 多 BPA 算 法 (可 以 上 www.ssdfans.com 查看 相关 文 
-M a a ULIS 
实 o 


这 是 GC 的 第 一 步 ， 挑 选 源 内 存 块 。 


第 二 步 吏 是 把 数据 从 源 闪 存 块 读 出 来 。 这 里 也 是 有 讲 客 的 ， 怎 么 
读 才 是 最 有 效率 的 ? 全 部 读 出 来 还 是 只 读 有 效 数据 ? 有 人 说 ， 当 然 只 
读 有 效 数 据 更 有 效率 了 ， 毕 竟 我 们 只 需 重 写 有 效 数 据 。 我 偶 同 这 个 观 
点 ， 但 问题 来 了 ， 一 个 内 存 块 有 那么 多 逻辑 页 数据 ， 如 何 知 道 哪些 数 
据 古 有 效 ， 哪 些 义 是 无 效 的 呢 ? 如 图 4-29 所 示 。 
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图 4-29 用 户 数据 随机 分 布 在 SSD 内 


当 我 们 挑选 Block 0 (有 效 数据 最 少 ) 来 做 垃圾 回收 时 ， 如 果 只 读 
出 有 效 数 据 〈 浅 色 方 块 ) ，FW 如 何 知 道 Block 0 上 哪些 数据 是 有 效 的 
呢 ? 办 法 总 是 有 的 。 


前 面 提 到 ， 固 件 在 往 一 个 内 存 块 上 写 入 逻辑 页 时 ， 会 更 新 和 维护 
内 存 块 的 有 效 数 据 量 ， 因 此 可 以 快速 挑 中 源 内 存 块 。 更 进一步 ， 如 来 
固件 不 仅仅 只 更 新 和 维护 闪存 块 的 有 效 数 据 量 ， 还 给 内 存 块 一 个 
Bitmap 标识 哪个 物理 页 (例子 中 我 们 假设 逻辑 页 和 内 存 页 大 小 一 
样 ) 是 否 有 效 ， 那 么 在 做 GC 的 时 候 ， 国 件 只 需 根据 Bitmap 表 的 信息 , 
把 有 效 数据 读 出 ， 然 后 重 写 即 可 。 员 体 做 法 跟前 面 介 绍 的 类 似 ， 即 固 
件 把 一 笔 泌 辑 页 写 入 到 某 个 闪存 块 时， 该 闪存 块 上 对 应 位 置 的 Bit 就 轩 
成 1° 一 个 内 存 块 上 新 增 一 笔 有 效 数据 ， 避 3 意味 着 该 笔 数 据 所 在 的 前 一 
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个 闪存 块 上 数据 变 成 无 效 ， 因 此 需要 把 前 一 个 内 存 块 对 应 的 位 置 的 Bit 
清 0 ( 见 图 4-30) e 
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图 4-30 ”SSD 首 次 写 入 4 个 逻辑 页 数据 
固件 往 Block 0 写 入 逻辑 页 0、1、2、3 后 ，Bitmap 信 息 如 表 4-7 所 


表 4-7 向 Block 0 写 入 后 SSD 中 有 
有 效 数据 Bitmap ( 块 内 第 一 行 ) 
TE 


100 100 100 100 000 000 000 000 


固件 写 满 后 ， 整 个 用 户 空间 如 图 4-31 所 示 。 
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在 写 入 逻辑 页 1、2、3、4 的 时 候 ， 不 仅 要 更 新 Block 5 上 的 
Bitmap， 还 应 该 把 Block 0 (逻辑 页 1、2、3、4 之 前 所 在 的 闪存 块 ; 上 
对 应 的 Bits 清 0， 如 表 4-9 所 示 。 


由 于 有 了 闪存 块 上 有 效 数据 的 Bitmap， 在 GC 读 的 时 候 ， 固 件 就 能 
准确 定位 到 有 效 数 据 并 读 出 。Bitmap 存 在 的 好 处 ， 就 是 使 GC 更 有 效 
率 ， 但 固件 需要 付出 额外 的 代价 去 维护 每 个 内 存 块 的 Bitmap。 在 我 们 
的 例子 中 ， 每 个 内 存 块 (这 里 指 的 是 所 有 Die 上 同一 个 内 存 块 号 组 成 的 
内 存 块 集合 ) 只 有 36 个 逻辑 页 ， 但 在 实际 情况 下 ， 每 个 内 存 块 有 可 能 
存在 一 两 千 个 内 存 页 ， 每 个 内 存 页 可 以 容纳 若干 个 逻辑 页 ， 因 此 ， 每 
个 闪存 块 的 Bitmap 需 要 占用 数目 不 小 的 存储 空间 。 对 带 DRAM 的 SSD 来 
说 ，Bitmap 的 存储 空间 可 能 不 是 问题 ， 但 对 没有 DRAM 的 SSD 来 说 ， 可 
能 就 没有 那么 多 的 SRAM 来 存储 所 有 闪存 块 的 Bitmap。 对 DRAM-Less 
的 SSD 来 说 ， 由 于 SRAM 受 限 ， 只 能 在 SRAM 中 加 载 部 分 闪存 块 的 
Bitmap， 因 此 还 需要 Bitmap 的 换 入 换 出 〈 同 Map Table) ， 给 固件 带 来 
不 小 的 开销 ， 实 现 起 来 没有 想象 中 的 简单 。 
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图 4-31 首次 SSD 用 户 空 间 写 满 后 
表 4-8 ”用 户 空间 写 满 后 各 个 内 存 块 的 Bitmap 


闪存 块 号 | 有 效 数据 量 | 有 效 数据 Bitmap( 块 内 第 一 行 )| 闪存 块 号 | 有 效 数据 量 | 有 效 数据 Bitmap ( 块 内 第 一 行 ) 
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图 4-32 用户 空 间 写 满 后 继续 写 入 4 个 逻辑 页 
表 4-9 June A 


有 并 数 所 是 [有效 数据 Bitmap RAR) 
DE ám | EE 9 | ámmamam 


如 果 没 有 每 个 内 存 块 的 有 效 数 据 Bitmap，FW 做 GC 的 时 候 ， 可 以 选 
择 把 所 有 数据 读 上 来 。 但 此 时 还 需要 解决 一 个 问题 ， 那 就 是 这 些 数 据 
哪些 是 有 效 的 呢 ? 也 就 是 哪些 数据 需要 重 写 呢 ? 


SSD 在 把 用 户 数 据 写 到 内 和 存 的 时 候 ， 会 额外 打包 一 些 数据 ， 我 们 叫 
它 元 数据 (Meta Data) ， 它 记录 着 该 笔 用 户 数据 的 相关 信息 ， 比 如 该 


笔 数据 对 应 的 逻辑 地 址 、 数 据 长 度 ， 以 及 时 间 戳 〈 数 据 写 入 到 内 存 的 
时 间 ) 等 。 因 此 ， 用 户 数据 在 内 存 中 是 像 图 4-33 这 样 存储 的 。 


闪存 空间 
元 数据 用 户 数据 
M Ee 


Pa: Physical Address， 物 理 地 址 
La: Logical Address, i7 HJ 
TS: Timestamp, HjJ[H]£ 
图 4-33 ”元 数据 和 用 户 数据 存储 的 例子 


GC 的 时 候 ，FW 把 数据 读 上 来 ， 就 获得 了 该 笔 数据 对 应 的 LBA， 
要 判断 该 数据 是 否 无 效 ， 需 要 查找 映射 表 ， 获 得 该 LBA 对 应 的 物理 地 
址 ， 如 果 该 地 址 与 该 数据 在 闪存 块 上 的 地 址 一 致 ， 就 说 明 是 有 效 的 ， 
否则 该 数据 就 是 无 效 的 。 


把 源 闪 存 块 里 的 全 部 数据 读 出 来 ， 这 种 方式 的 缺点 显而易见 : GC 
做 得 慢 。 不 管 数据 是 否 有 效 ( 读 之 前 不 知道 是 否 有 效 ) ， 都 需要 读 出 
来 ， 然 后 还 需要 查找 映射 表 来 决定 该 笔 数据 是 否 无 效 。 这 对 带 DRAM 
的 SSD 来 说 问题 不 大 ， 因 为 其 所 有 映射 表 都 在 DRAM 中 ， 但 对 DRAM- 
Less 的 SSD 来 说 ， 很 多 时 候 都 需要 从 闪存 里 面 把 映射 关系 读 上 来 ， 这 简 
直 是 个 灾难 。 这 种 方式 的 好 处 就 是 FW 实现 起 来 简单 ， 不 需要 维护 额外 
2n 闪存 块 有 效 数 据 Bitmap 之 类 的 东西 ， 不 需要 额外 的 RAM 资 源 和 FW 


还 有 一 个 折 中 的 办 法 。 就 是 除了 维护 L2P (Logical to Physical) 的 
映射 表 ， 还 维护 一 张 P2L (Physical to Logical) 的 表 。 该 表 记 录 了 每 个 
内 存 块 写 入 的 LBA， 该 P2L 数 据 写 在 该 内 存 块 的 某 个 位 置 (或 单独 存 
储 ) 。 当 回收 该 内 存 块 时 ， 首 先 把 该 P2L 表 加 载 上 来 ， 然 后 根据 上 面 的 
LBA， 依 次 查找 映射 表 ， 决 定 该 数据 是 否 有 效 ， 有 效 的 数据 会 被 读 出 
来 ， 然 后 重新 写 入 。 采 用 该 方法 ， 不 需要 把 该 内 存 块 上 的 所 有 数据 一 
股 脑 地 读 出 来 ， 但 还 是 需要 查找 映射 表 以 决定 数据 是 否 有 效 。 因 此 ， 
ee 在 资源 和 固件 开销 上 也 是 处 
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当 有 效 数据 读 出 来 时 ， 最 后 一 步 就 是 重 写 ， 即 把 读 出 来 的 有 效 数 
据 写 入 闪存 。 


43.4 AIL 


SSD 什 么 时 候 做 GC? 当 用 户 写 入 数据 时 ， 如 果 可 用 的 闪存 块 小 于 
一 定 闽 值 ， 这 时 就 需要 做 GC， 以 腾 出 空间 给 用 户 写 。 这 时 做 的 GC， 叫 
作 Foreground GC 〈 前 台 垃 圾 回收 ) 。 这 是 被 动 方式 ， 它 是 由 于 SSD 没 
有 多 少 可 用 的 闪存 块 时 ， 才 去 做 的 GC。 与 之 相对 应 的 ， 就 是 
Background GC 《后台 垃圾 回收 ) ， 它 是 在 SSD 空 间 (Idle) 的 时 候 ， 
SSD 主 动 去 做 的 GC， 这 样 在 用 户 写 入 的 时 候 就 有 充裕 的 可 用 闪存 块 ， 

不 需要 临时 抱佛脚 (做 Foreground GC) ， 从 而 改善 用 户 写 入 性 能 。 但 
是 ， 出 于 功 耗 考虑 ， 有 些 SSD 可 能 就 不 做 后 台 垃 圾 回收 了 ， 当 SSD 空 闪 
后 ， 直 接 进入 省 电 模式 ， 或 者 做 少量 的 GC， 然 后 进入 省 电 模 式 。 


这 是 肖 见 的 两 种 垃圾 回收 时 机 ， 痢 是 SSD 目 己 内 部 控制 的 。 事 实 
上 ， 除 了 SSD 本 映 ， 有 些 SSD 还 文 持 主 机 控制 其 去 做 GC。 这 个 比较 有 
意思 ， 我 们 花 点 时 间 来 看 看 。 


2015 年 8 月 15 日 ，OCZ 发 布 了 一 蒜 SATA 接 口 企 业 级 SSD 
1000HMS， 它 是 首 款 具有 “主机 管理 SSD” (Host Managed SSD, 
HMS) 功能 的 SSD。 所 谓 HMS， 就 是 主机 通过 应 用 软件 获取 SSD 的 运 
行 状态 ， 然 后 控制 SSD 的 一 些 行为 。 


在 SSD 的 内 部 ， 运 行 着 一 些 后 台 任 务 ， 比 如 垃圾 回收 、 记 录 SSD 运 
行 日 志 等 。 这 些 后 台 任 务 的 执行 ， 会 影响 SSD 的 性 能 ， 并 且 使 得 SSD 的 
时 延 (latency) 不 可 预测 。HMS 技 术 使 得 主机 能 控制 SSD 的 后 台 任 
2 pu aee 什么 时 候 执行 ， 什 么 时 候 不 执行 ， 主 

是 可 控 的 。 


这 有 什么 用 呢 ? 对 单个 SSD 来 说 ， 使 用 者 可 以 通过 HMS 软 件 ， 在 
SSD 择 朵 时 让 其 执行 垃圾 回收 任务 ， 这 样 ， 在 后 续 的 写 入 过 程 中 ，SSD 
内 部 有 足够 的 空闲 块 可 写 ， 不 需要 临时 去 做 垃圾 回收 ， 从 而 提升 SSD 性 
能 ， 减 小 写 入 的 时 延 。 


Saber 1000HMS 是 企业 级 的 SSD。 相 比 客户 级 SSD， 稳 定 的 性 能 和 
时 延 是 企业 级 更 加 追求 的 。 后 台 任 务 的 存在 ， 使 得 SSD 性 能 和 时 延 很 难 
保持 一 致 。HMS 技 术 的 出 现 ， 使 得 整个 系统 具有 稳定 的 性 能 和 可 预测 
的 时 延 ， 如 图 4-34 所 示 。 


Saber 


Reads per second (OPS) 


图 4-34 HMS 打 开 后 系统 性 能 平稳 


4.4 Trim 


对 一 个 文件 File A 来 说 ， 用 户 看 到 的 是 文件， 操作 系统 把 文件 划分 
为 夺 干 个 逻辑 块 ， 然 后 写 入 SSD 的 内 存 空间 。 当 用 户 删 除 挥 文件 File A 
时 ， 其 实 它 只 是 切断 用 户 与 操作 系统 的 联系 ， 即 用 户 访 问 不 到 这 些 地 
址 空间 ， 而 在 SSD 内 部 ， 逻 辑 页 与 物理 页 的 映射 关系 还 在 ， 文 件数 据 在 
内 存 当 中 也 是 有 效 的 ， 如 图 4-35 所 示 。 


A: Z d SSD 
Block 


用 户 删除 文件 A 


图 4-35 用户 删除 文件 示例 


在 没有 Trim 之 前 ，SSD 无 法 知道 那些 被 删除 的 数据 页 是 否 无 效 ， 必 
须 等 到 系统 要 求 在 相同 的 地 方 《用 户 空间 、 逻 辑 空间 ) 写 入 数据 时 才 
知道 那些 数据 是 无 效 的 ， 进 而 放心 删除 。 由 于 SSD 不 知道 这 些 删除 的 数 
据 已 经 无 效 ， 在 做 垃圾 回收 的 时 候 ， 仍 把 它 当 作 有 效 数 据 进行 数据 的 
d 这 不 仅 影 响 到 GC 的 性 能 ， 还 影响 到 SSD 的 寿命 〈 写 放大 增 


Trim 是 一 个 新 增 的 ATA 命 令 (Data Set Management) ， 专 为 SSD 而 
生 。 当 用 户 删 除 一 个 文件 时 ， 操 作 系 统 (对 Windows 来 说 ， 它 目 
Windows 7 开始 支持 Trim) 会 发 Trim 命 令 给 SSD， 告 诉 SSD 该 文件 对 应 
的 数据 无 效 了 。 一 旦 SSD 知 道 哪 些 数 据 无 次 之后， 在 做 垃圾 回收 的 时 候 
就 可 以 把 这 些 删 除 挥 的 数据 抛弃 挥 ， 不 做 无 谓 的 数据 搬移 。 这 样 不 仪 
增强 了 SSD 的 性 能 ， 还 延长 了 SSD 寿 命 。 


SCSI 里 面 的 同等 命令 叫 UNMAP，NVMe 里 面 叫 Deallocate。 它 们 指 
的 都 是 同一 个 功能 


当 SSD 收 到 Trim 命 令 时 ， 它 要 做 些 什么 呢 ? 
举 个 例子 。 主 机 通过 Trim 命 令 告诉 SSD: 我 0 一 7 的 逻辑 页 上 的 数据 


删除 了 ， 你 可 以 把 它们 当 垃 圾 处 理 。 收 到 Trim 命 令 之 前 ， 逻 辑 页 0~7 
有 以 下 映射 ， 它 们 分 别 写 在 物理 地 址 PBA a~， 如 图 4-36 所 示 。 


|LBA 0| LBA 1| LBA 2| ILBA3| LBA 4 eaea LBA7| -«-— ;v8Jubh $1738 


地 址 的 映射 表 


所 一 标记 物理 块 中 有 
效 数据 的 bitmap 


A 记录 物理 块 有 效 


数据 个 数 的 表 


图 4-36 ”FTL 中 的 3 张 表 


如 前 所 述 ， 一 般 FTL 都 有 这 3 个 表 。 AL Ec ni 
的 物理 页 位 置 。Valid Page Bit Map (VPBM) 记录 每 个 物理 块 上 哪个 页 
SARAS, Valid Page Count (VPC) 则 记录 每 个 物理 块 上 的 有 效 页 
个 数 。 通 常 GC 会 使 用 VPC 进行 排序 来 回收 最 少 有 效 页 的 内 行 块 ; 
Boom 了 在 GC 时 只 读 有 用 的 数据 ， 也 有 部 分 FTL 会 省 略 这 


如 图 4-36 所 示 ，EFTL 的 映射 往往 是 非 营 分散 的 ， 连 续 的 逻辑 页 对 应 
地 址 会 在 很 多 不 同 的 内 存 块 上 。SSD 收 到 Trim 命 AE 为 了 实现 数据 删 
除 ， 固 件 要 按 顺 序 做 以 下 的 事情 “图 4-37 中 的 步骤 1~4) 。 


LBA 0| LBA 1|LBA2|EBA3|ELBA4|LBAS|EBA6|LBA 7| 1? 清除 L2Ptable 到 空地 址 

2) 清除 Valid Page Bit map 上 对 应 的 bit 
4) 重复 以 上 3 步 直 到 完成 每 一 个 LBA 
5) 根据 新 的 VPC 重新 计算 GC 的 优先 级 


ESSENT 6) 回收 最 少 VPC 的 block 


7) 擦 除 全 是 垃圾 的 block 


图 4-37 FIL 处 理 TRIM 流 程 


Trim 的 实现 逻辑 基本 就 是 这 样 ， 不 同 的 SSD 实 现 可 能 略 有 不 同 ， 比 
如 如 果 没 有 有 效 数 据 Bitmap， 就 没有 图 4-37 中 的 第 2 步 操 作 。 需 要 说 明 
的 是 ， 图 4-37 中 的 步骤 5~~7 是 Trim 合 令 处 理 后 ，GC 的 处 理 ， 它 们 不 是 
Trim 命 令 处 理 的 部 分 。Trim 命 令 是 不 会 触发 GC 的 。 


关于 Trim 的 更 多 内 容 ， 可 以 上 www.ssdfans.com 搜索 Trim 相 关 的 文 
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”磨损 平衡 ， 就 是 让 SSD 中 的 每 个 内 存 块 的 磨损 ( 擦 除 ) 都 保持 均 


为 什么 要 做 磨损 平衡 ? 原因 是 内 存 都 是 有 寿命 的 ， 即 内 存 块 有 所 


写 次 数 限制 。 一 个 内 存 块 ， 如 果 其 擦 写 次 数 超过 一 定 的 值 ， 那 么 该 块 
束 变 得 不 那么 可 靠 了 ， 甚 至 变 成 坏 块 不 能 用 了 。 如 果 不 做 磨损 平衡 ， 

则 有 可 能 出 现 有 些 内 存 块 频 驼 拿 来 做 探 写 ， 这 些 内 存 块 很 容易 束 会 大 
终 正 究 。 随 着 不 断 的 写 入 ， 越 来 越 多 的 坏 块 出 现 ， 节 后 导致 SSD 在 保质 
期 前 束 挂 挥 。 相 反 ， 如 果 让 所 有 闪存 块 一 起 来 承担 ， 则 能 经 受 更 多 的 
用 户 数据 写 入 。 


一 个 内 存 块 寿命 有 多 长 呢 ? 从 SLC 十 几 万 的 擦 写 次 数 ， 到 MLC 几 


千 的 擦 写 次 数 ， 然 后 到 TLC 的 一 两 千 次 甚至 几 百 次 擦 写 次 数 ， 随 着 内 
存 工艺 不 断 向 前 推 ， 内 存 的 寿命 越 来 越 短 ，SSD 对 磨损 平衡 的 处 理 要 求 
也 越 来 越 高 ， 如 图 4-38 所 示 。 


探 写 次 数 
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SLC 5x-nm MLC 3x-nm MLC 2x-nm MLC  3-bit-MLC 
图 4-38 不 同 制程 和 类 型 内 存 的 擦 写 次 数 


接 下 来 的 问题 就 是 ，SSD 是 怎么 做 磨损 平衡 的 呢 ? 


在 这 之 前 ， 我 们 移 抛 出 几 个 概念 : 冷 数 据 (Cold Data) 和 热 数据 
(Hot Data) ， 年 老 的 (Old) 块 和 年 轻 的 (Young) 块 。 


所 谓 冷 数据 ， 束 是 用 户 不 经 党 更 新 的 数据 ， 比 如 用 户 写 入 SSD 的 操 
作 系 统 数据 、 只 该 文件 数据 、 小 电影 等 ， 相 反 ， 热 数据 束 是 用 户 更 新 
频繁 的 数据 。 数 据 的 频繁 更 新 ， 会 在 SSD 内 部 产生 很 多 垃圾 数据 (新 的 
数据 写 入 导致 老 数据 失效 ) 。 


所 谓 年 老 的 块 ， 就 是 擦 写 次 数 比 较 多 的 内 存 块 ， 探 写 次 数 比 较 少 
的 内 存 块 ， 年 纪 相 对 小 ， 我 们 叫 它 年 轻 的 块 。SSD 很 容易 区 分 年 老 的 块 
和 年 轻 的 块 ， 看 它们 的 EC (Erase Count, RRO 就 可 以 了 ， 大 的 
就 是 老 的 ， 小 的 就 是 年 轻 的 。 


SSD 一 般 有 动态 磨损 平衡 (Dynamic WL) 和 静态 磨损 平衡 (Static 
WL) 两 种 算法 。 动 态 磨 损 平 衡 算法 的 基本 思想 是 把 热 数据 写 到 年 轻 的 
块 上 ， 即 在 拿 一 个 新 的 闪存 块 用 来 写 的 时 候 ， 挑 选 擦 写 次 数 小 的 ; 静 
态 磨损 平衡 算法 基本 思想 是 把 冷 数 据 写 到 年 老 的 块 上 ， 即 把 冷 数 据 搬 
到 擦 写 次数 比 较 多 的 内 存 块 上 。 


动态 磨损 平衡 可 能 相对 好 理解 一 些 ， 在 写 入 新 数据 时 ， 挑 选 年 轻 
力 壮 的 内 存 块 ， 这 样 束 避免 了 一 直 往年 长 的 内 存 块 上 写 入 数据 ， 内 和 存 
块 的 擦 写 次 数 能 保持 一 个 比较 均衡 的 值 。 


我 们 重点 来 说 说 静态 磨损 平衡 。 


为 什么 还 需要 静态 磨损 平衡 ? 冷 数 据 由 于 不 经 溃 更 新 ， 它 写 在 一 
个 或 者 儿 个 内 存 块 上 后 ， 基 本 保持 不 动 ， 这 样 ， 这 些 内 存 块 的 擦 写 次 
数 束 不 会 增加 ， 相 反 ， 对 别 的 内 存 块 ， 由 于 经 常 拿 来 写 入 用 户 数据 ， 
探 写 次 数 是 一 直 增 长 的 。 这 样 就 导致 内 存 块 的 探 写 不 均衡 ， 这 不 是 我 
们 期 望 的 。 因 此 ， 固 件 需要 做 静态 磨损 平衡 ， 把 冷 数 据 搬 到 探 写 次 数 
比较 多 的 内 存 块 上 ， 让 那些 筋 音 功 高 的 年 老 内 存 块 休息 一 下 ， 腾 出 来 
的 年 轻 内 存 块 去 玲 年 老 的 内 存 块 夭 受 用 户 数据 的 号 入 。 


固件 具体 做 静态 磨损 平衡 的 时 候 ， 一 般 使 用 GC 机 制 来 做 ， 只 不 过 
它 挑 选 源 内 存 块 时 ， 不 是 挑选 有 效 数 据 最 小 的 内 存 块 ， 而 古 挑 光 冷 数 
据 所 在 的 内 存 块 。 其 他 和 GC 差不多 ， 即 读 取 源 内 存 块 上 的 有 效 数 据 ， 
然后 把 它 写 到 探 写 次 数 相对 大 的 闪存 块 上 去 。 


静态 磨损 平衡 可 能 导致 冷 数据 和 热 数 据 混在 同一 个 内 存 块 上 ， 即 
冷 数 据 可 能 跟 用 户 刚 写 入 的 数据 混在 一 起 ， 或 首 冷 数据 和 GC 的 数据 写 
在 一 起 ， 或 者 三 者 写 在 一 起 。 
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2) SWL 数 据 和 GC 数 据 混 在 一 起 写 在 同一 个 内 存 块 上 ， 如 图 4-40 所 


热 数 据 
图 4-40 ”SWL 和 GC 数据 写 在 一 起 
3) 三 者 全 都 混在 一 起 写 在 同一 个 闪存 块 上 ， 如 图 4-41 所 示 。 


为 佬 和 我 要 提 冷 热 数据 混在 一 起 写 这 个 问题 ” 冷 热 数据 混在 一 起 
写 不 好 吗 ? 


的 确 有 不 好 的 地 方 ， 那 就 是 在 做 GC 的 时 候 ， 由 于 冷 数据 掺 杂 其 中 
( 冷 数 据 由 于 不 经 党 被 用 户 更 改 ， 这 些 数据 往往 是 有 效 数据 ， 这 些 
冷 数 据 束 可 能 经 常 地 从 一 个 内 存 块 搬 到 男 外 一 个 内 存 块 ， 然 后 从 男 外 
一 个 内 存 块 再 搬 到 别 的 内 存 块 上 去 ， 长 此 以 往 ， 引 入 了 不 少 额 外 的 
写 ， 导 致 写 放 大 增 大 。 


有 读者 要 问 ， 那 该 怎么 办 ? 下 面 提供 一 种 解决 方案 。 


解决 办 法 如 图 4-42 所 示 ， 做 静态 磨损 平衡 的 时 候 ， 用 专门 的 内 存 块 
来 放 冷 数据 ， 即 不 与 用 户 或 者 GC 写 入 同一 个 内 存 块 。 这 样 冷 数据 束 单 
独 写 在 某 些 内 存 块 上 ， 它 们 一 般 不 会 挑选 为 GC 的 源 内 存 块 ， 也 束 避 免 
了 这 些 冷 数 据 的 频繁 搬移 。 它 只 有 在 下 一 次 需要 做 静态 磨损 平衡 的 时 
候 ， 才 会 从 一 个 内 存 块 搬 到 男 外 一 个 内 存 块 。 


冷 数据 


图 4-42 ” 冷 热 数据 分 开 存 储 


不 同 的 SSD 有 不 同 的 静态 磨损 平衡 做 法 。 如 果 不 在 乎 写 放 大 (EC 
HAREK, DZER)  ， 也 不 在 乎 冷 数 据 搬移 导致 的 性 能 下 降 ， 那 么 冷 
热 数据 混在 一 起 就 一 起 ， 毕 竟 实 现 简单 (不 需要 男 外 管理 静态 磨损 平 
衡 的 内 存 块 ) ; 相反， 如 采 对 写 放大 比较 敏感 的 话 ， 那 么 最 好 还 是 冷 
热 数据 分 开 。 


4.6 HERE 

掉 电 分 两 种 ， 一 种 是 正常 掉 电 ， 另 一 种 是 异常 掉 电 。 不 管 是 哪 种 
原因 导致 的 挤 电 ， 重 新 上 电 后 ，SSD 帮 需要 能 从 掉 电 中 恢复 过 来 ， 级 续 
正常 工作 。 


先 说 正常 挥 电 。 在 挥 电 前 ， 主 机 会 通过 命令 通知 SSD， 比 如 SATA 
中 的 Idle Immediately，SSD 收 到 该 命令 后 ， 主 要 会 做 以 下 事情 : 


-把 buffer 中 缓存 的 用 户 数据 刷 入 闪存 。 

JERR SIL A NE ° 

-把 内 存 的 块 信息 写 入 内 存 (比如 当前 写 的 是 哪个 内 存 块 ， 以 及 写 
到 该 内 存 及 的 哪个 位 置 ， 哪些 内 存 块 已 经 写 过 ， 哪 些 闪 存 块 又 是 无 效 


的 等 ) 


-把 SSD 其 他 信息 写 入 内 存 。 


主机 等 SSD 处 理 完 以 上 事情 后 ， 才 会 真正 停止 对 SSD 的 供电 。 正 常 
掉 电 不 会 导致 数据 的 丢失 ， 重 新 上 电 后 ，SSD 只 需 把 掉 电 前 保存 的 相关 
信息 (比如 映射 数据 ， 内 存 块 信息 等 重新 加 载 ， 又 能 接着 掉 电 前 的 
状态 继续 工作 。 


如 果 SSD 世 界 只 存在 正常 掉 电 ， 那 么 SSD 的 实现 就 会 简单 很 多 。 可 
X E (异常 掉 电 ) ， 对 SSD 来 说 ， A=”, H 
eni" 6 


所 谓 的 异常 掉 电 ， 融 是 SSD 在 没有 收 到 主机 的 挥 电 通 知 时 束 补 断 
电 ; 或 者 收 到 主机 的 挥 电 通知 ， 但 还 没有 来 得 及 处 理 上 面 提 到 的 那些 
事情 ， 束 被 断 电 了 。 异 常 掉 电 可 能 会 导致 数据 的 丢失 ， 比 如 缓存 在 SSD 
中 的 数据 来 不 及 写 到 闪存 ， 掉 电导 致 这 部 分 数据 丢失 。 还 有 ， 根 据 内 
存 特性 ， 如 果 挥 电 发 生 在 写 MLC 的 Upper page， 会 导致 其 对 应 的 Lower 
Page 数 据 遭 到 破坏 ， 也 就 是 意味 着 之 前 写 入 闪存 的 数据 也 可 能 由 于 异 
利 掉 电导 致 丢失 。 异 常 掉 电 恢复 的 目的 一 方面 是 尽 可 能 恢复 用 户 数 
把 损失 减 到 最 低 ， 男 一 方面 是 让 SSD 经 历 异 常 掉 电 后 还 能 正常 工 


N 
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SSDT A BAE? 它 不 是 用 内 存 做 存储 介质 吗 ? 它 不 是 数据 
挥 电 不 丢失 吗 ? 没 错 。 不 过 一 个 SSD， 除 了 数据 挥 电 不 丢失 的 内 存 ， 还 
需要 有 掉 电 数 据 丢 失 的 RAM、SRAM 或 者 DRAM。 闪 存 的 作用 是 存储 
数据 ， 而 RAM 的 作用 主要 是 SSD 工 作 时 用 以 缓存 用 户 数据 和 存放 映射 
表 (Map Table， 浸 辑 地 址 映射 内 存 物 理 地 址 ) 。 所 以 一 旦 掉 电 ，RAM 
的 数据 就 会 丢失 。 


为 防止 异 闸 挥 电导 任 的 数据 丢失 ， 一 个 简单 的 设计 束 是 在 SSD 上 加 
电容 ，SSD 一 旦 检测 到 掉 电 ， 就 让 电容 开始 放电 ， 然 后 把 RAM 中 的 数 
据 刷 到 闪存 上 面 去 ， 从 而 避免 数据 丢失 。 企 业 级 的 SSD 一 般 都 带 有 电 
容 。 带 电容 的 SSD， 还 是 需要 设计 异常 掉 电 处 理 模块 ， 因 为 电容 不 能 
100% 保 证 SSD 在 挥 电 前 把 所 有 的 信息 刷 入 内 存 。 


还 有 一 个 比较 前 卫 的 想法 ， 就 是 把 RAM 这 种 Volatile ( 掉 电 数据 丢 
A) 的 东西 ， 用 Non-Volatile ( 掉 电 数据 不 丢失 ) WEARER, THE 
求 这 种 Non-Volatile 的 东西 性 能 上 接近 RAM。 这 样 ， 整 个 SSD 都 是 Non- 
Volatile 的 了 。Intel 和 Micron 合 作 开 发 的 3D XPoint， 可 作为 一 个 选择 。 
3D XPoint 兼 有 闪存 掉 电 数据 不 丢失 和 内 存 快速 访问 的 特点 。 


RAM 中 缓存 的 用 户 数 据 ， 主 机 自 认 为 把 它们 写 到 SSD 了 〈 非 FUA 
命令 ， 数 据 写 到 缓存 ，SSD 就 返回 状态 给 主机 ) ， 但 SSD 只 是 把 它们 组 
存在 RAM 中 ， 并 没有 写 到 内存 。 异 常 挥 电 时 ， 如 果 SSD 上 没有 使 用 电 
容 ， 也 没有 使 用 其 他 黑 科 搁 ， 这 部 分 数据 便 损失 无 疑 。 重 上 电 时 ,， Xx 
机 是 再 也 读 不 到 这 些 数据 了 。 


挥 电 还 会 导致 RAM 中 了 映 味 表 丢 失 。 映 里 表 数据 很 重要 ， 对 一 个 逻 
辑 地 址 ， 如 条 SSD 碍 找 不 到 对 应 的 物理 地 址 ， 它 融 无 法 从 内 存 上 读 取 数 
据 返 回 给 主机 。 如 有 果 映 射 表 中 的 数据 不 是 最 新 的 ， 旧 的 物理 地 址 对 应 
着 老 的 数据 ，SSD 就 会 错误 地 把 老 数 据 返 回 给 主机 ， 这 个 问题 就 严重 
[fe 


阿 采 原 账户 上 有 10 元 钱 ， 最 近 存 入 100 万 元 ， 但 由 于 异常 挥 电导 致 
银行 没有 把 100 万 元 写 和 数据库， 下 座 阿 有 到 ATM 上 一 看 ， 怎 么 还 是 10 
元 钱 ? 阿 示 当时 就 置 死 过 去 ! 异常 掉 电 害 死 人 。 


但 是 ， 和 RAM 中 用 户 数据 丢失 不 同 ，RAM 中 映射 表 数 据 是 有 办 法 
KATRI e SSR KARE ERMER RKE EE 。 

那么 ， 如 何 重建 映射 表 呢 ? 下 面 介绍 一 种 重 构 策 略 〈 不 同 的 SSD 重 
构 策略 略 有 不 同 ， 但 大 同 小 异 ) 。SSD 在 把 用 户 数据 写 到 闪存 的 时 候 ， 
会 额外 打包 一 些 数据 ， 我 们 叫 它 元 数据 (Meta Data) ， 它 记录 着 该 笔 
用 户 数据 的 相关 信息 ， 比 如 该 笔 数 据 对 应 的 逻辑 地 址 、 数 据 写 入 时 间 
(HERD 等， 如 图 4-43 所 示 。 


元 数据 : Mani CTS) 
图 4-43 ”元 数据 内 容 示 例 
因此 ， 用 户 数据 在 闪存 中 是 像 下 面 这 样 存 储 的 〈 见 图 4-44) 。 


闪存 空间 
元 数据 用 户 数 据 


Pa: Physical Address， 物 理 地址 
La: Logical Address, i7 5HJUb HE 
TS: Timestamp, MHEN 

图 4-44 “元 数据 和 用 户 数据 存储 示例 


以 图 4-44 为 例 ， 如 末 我 们 读 取 物理 地 址 Pa x， 束 能 读 取 到 元 数据 x 
和 用 户 数据 x， 而 元 数据 是 有 逻辑 地 址 La x 的 ， 因 此 ， 我 们 就 能 获得 映 
Hf: Lax Pax » BEER IE ERERSSCÁRIS ER, HUEEAR SERE T 
FZR, SLBEJATSPUHTJBRUNACR, mUATGBUR T DUNS o 


原理 简单 ， 但 实现 起 来 还 有 一 些 问题 需要 考虑 ， 比 如 如 何 解决 数 
据 新 旧 问题 、 重 构 速度 问题 等 。 


同一 逻辑 地 址 ， 用 户 可 能 写 过 替 干 次 ， 在 内 存 空间 ， 该 逻辑 地 址 
对 应 的 数据 有 很 多 是 上 昌 数 据 ， 只 有 一 笔 是 新 数据 ， 那 么 如 何 甄 别 哪 些 
数据 是 日 的 ， 哪 些 数据 是 新 的 呢 ? 如何 让 逻辑 地 址 映射 到 最 新 数据 所 
在 的 物理 地 址 呢 ? 以 图 4-44 为 例 ，SSD 起 初 把 逻辑 地 址 La 2 的 数据 写 在 
物理 地 址 Pa 2 上 ; 之 后 ， 用 户 义 改写 了 那 笔 数 据 ，SSD 把 它 写 到 了 物理 
地 址 Pa 8 上 。 我 们 知道 ， 用 户 最 后 写 入 的 数据 总 是 最 新 的 。 在 这 里 ， 时 
间 稚 帮 上 大 忙 了 ， 哪 个 值 大 ， 整 表示 哪个 是 最 后 写 入 的 。SSD 可 以 依赖 
Meta data 中 的 时 间 鹤 来 区 分 新 上 昌 数 据 的 。 图 4-44 中 ， 在 全 强 扫描 时 ， 假 
设 扫描 顺序 是 从 物理 地 址 Pa 1 到 物理 地 址 Pa x， 对 逻辑 地 址 La 2 来 说 ， 
开始 会 产生 映射 La 2 一 Pa 2， 但 扫 摘 到 Pa 8 时 ， 发 现时 间 玲 比 之 前 的 更 
新 ， 于 是 新 的 映射 取代 旧 的 上 映射， 最 后 得 到 映射 关系: La 2 一 Pa8。 


全 弄 扫 朱 有 一 个 问题 ， 束 是 映射 表 恢 复 很 慢 ， 所 耗 的 时 间 与 SSD 容 
量 成 正比 。 现 在 SSD 容 量 已 达到 TB 级 别 ， 全 盘 扫 描 映 射 方式 ， 重 构 映 
射 表 需要 花费 几 分 钟 甚至 几 十 分 钟 ， 这 在 实际 使 用 中 ， 用 户 是 不 能 接 
受 的 。 那 SSD 内 部 是 如 何 快速 恢复 映射 表 的 呢 ? 


一 种 办 法 就 是 SSD 定 期 把 SSD 中 RAM 的 数据 〈 包 括 映 射 表 和 缓存 
的 用 户 数据 ) 和 SSD 相 关 的 状态 信息 (诸如 内存 块 擦 写 次 数 、 内 存 块 读 
次 数 、 内 存 块 其 他 信息 等 ; 写 入 到 闪存 中 去 ， 与 正常 掉 电 前 SSD 要 做 的 
事情 类 似 ， 这 个 操作 我 们 称 之 为 做 Checkpoint (检查 点 ， 此 处 译 成 “ 快 
照 " 更 合适 ) ， 如 图 4-45 所 示 。 


快照 A 快照 也 gia c Bia D 
图 4-45 ”定期 给 SSD 拍 照 


假设 图 4-45 中 ， 在 做 完 快照 C 后 ， 做 下 一 个 快照 D 之 前 ，SSD 在 X 处 
发 生 了 异常 掉 电 ， 如 图 4-46 所 示 。 


时 间 轴 


快照 A REB ”快照 C 


快照 D 
图 4-46 ”异常 挥 电 发 生 在 快照 C 后 


重 上 电 ，SSD 可 以 从 闪存 中 读 取 到 最 新 的 快照 信息 ， 即 快照 C。 由 
于 异常 掉 电 ， 从 快照 C 处 到 X 处 新 产生 的 映射 关系 丢失 。 由 于 之 前 绝 大 


多 数 的 映射 关系 都 被 快照 C 保 存 ， 因 此 需要 重建 的 映射 关系 仅仅 是 快照 
C 之 后 产生 的 映射 关系 ， 这 部 分 关系 的 恢复 ， 仅 需 扫描 


些 局 部 的 物理 
空间 ， 因 此 ， 相 对 全 盘 扫 描 ， 有 映射 表 重 建 速度 大 大 加 快 。 


4.7“ 坏 块 管理 


4.7.1 HRR 


坏 块 来 源 主要 包括 : 


:出 厂 坏 块 (Factory Bad Block) : 闪存 从 工厂 出 来 ， 就 或 多 或 少 
的 有 一 些 坏 块 。 


-增长 坏 块 (Grown Bad Block) : 随 着 内 存 的 使 用 ， 一 些 初期 好 块 
也 会 变 成 坏 块 。 变 坏 的 原因 ， 主 要 是 擦 写 磨损 。 


4.7.2” 坏 块 鉴别 


内 存 厂 商 在 内 存 出 三 时 ， 会 对 出 三 坏 块 做 特殊 标记 。 一 般 来 说 ， 
刚 出 三 的 内 存 都 被 氛 除 ， 里 面 的 数据 十 全 0xFF。 但 古 对 坏 块 来 说 ， 内 
存 三 商会 打上 不 同 的 标记 。 拿 TOSHIBA 某 型 号 闪存 来 说 ， 它 是 这 样 标 
记 出 三 坏 块 的 ， 如 图 4-47 所 示 。 


出 广 坏 块 标记 


Spare 区 的 第 一 个 字 下 
图 4-47 ”出 广 坏 块 标 记 示 意图 


它 会 在 出 三 坏 块 的 第 一 个 内 存 页 和 最 后 一 个 内 存 页 的 数据 区 第 一 
个 字 节 和 Spare 区 第 一 个 字 节 写 上 一 个 非 0xFF 的 值 。 


用 户 在 使 用 闪存 的 时 候 ， 首 先 应 该 按照 内 存 文 档 ， 扫 描 所 有 的 闪 
存 块 ， 把 坏 块 剔除 出 来 ， 建 立 一 张 坏 块 表 。 还 是 拿 上 面 的 闪存 来 说 ， 
TOSHIBA 建 议 按照 下 面 的 流程 来 建立 坏 块 表 ( 见 图 4-48) ° 


开始 


探 除 所 有 块 
访问 第 一 块 


检查 第 一 页 的 第 一 
字 节 是 否 FFh 


检查 最 后 一 页 的 第 一 
个 字 节 是 否 FFh 


图 4-48 ”根据 出 广 坏 块 标记 建立 坏 块 表 流程 图 


还 有 些 内 存 广 商 ， 它 会 把 坏 块 信息 存储 在 闪存 内 部 某 个 地 方 (fu 
电 不 丢失 ) ， 用 户 在 建立 坏 块 表 的 时 候 ， 没 有 必要 扫描 所 有 的 内 存 块 
RR I 坏 块 ， 只 需 读 取 内 存 的 那个 特定 区 域 。 比 如 Micron， 它 的 内 存 
内 部 有 个 叫 OTP (One Time Programming) 的 区 域 ， 出 三 坏 块 信息 


存在 里 面 。 


对 增长 坏 块 而 言 ， 它 的 出 现 会 通过 读 写 擦 等 操作 反映 出 来 。 比 如 
读 到 UECC (Uncorrectable Error Correction Code， 数 据 没 有 办 法 通过 
ECC 纠 错 恢 复 ) 、 擦 除 失败 、 写 失败 ， 这 都 是 一 个 坏 块 出 现 的 症状 。 
用 户 应 该 把 这 些 坏 块 加 入 坏 块 表 ， 不 再 使 用 。 


4.7.3. DRE HR 


一 般 有 两 种 策略 管理 坏 块 ， 一 是 略 过 (Skip) RIE, ERR 
(Replace) 策略 。 


1. 略 过 策略 


用 户 根 据 建立 的 坏 块 表 ， 在 写 内 存 的 时 候 ， 一 旦 遇 到 坏 块 束 跨 过 
它 ， 写 下 一 个 Block。 


SSD 的 存储 空间 是 内 存 阵 列 ， 一 般 有 几 个 并 行 通 道 ， 每 个 通道 上 连 
接 了 若干 个 内 存 。 以 图 4-49 为 例 ， 该 SSD 有 四 个 通道 ， 每 个 通道 上 挂 了 


一 个 闪存 Die。 


SSD 向 四 个 Die 依 次 写 入 。 假 设 Die 1 上 有 个 Block B 是 坏 块 ， 若 固件 
采取 坏 块 略 过 策略 ， 则 写 完 Block A 时 ， 接 下 来 便 会 跨 过 Block B 写 到 
Die 2 的 Block CEHE ° 


2. 蔡 换 机 制 


与 略 过 策略 不 同 ， 当 某 个 Die 上 发 现 坏 块 时 ， 它 会 被 该 Die 上 的 某 
个 好 块 蔡 换 。 用 户 在 写 数 据 的 时 候 ， 不 是 器 过 这 个 Die， 而 是 写 到 葵 换 
块 上 面 去 。 采 用 此 和 集 略 ， 除 正常 用 户 使 用 的 内 存 块 ， 还 需 额外 保留 一 
部 分 好 的 内 存 块 ， 用 于 替换 用 户 空间 的 坏 块 。 整个 Die 上 闪存 块 就 划分 
为 两 个 区 域 ， 用 户 空 间 和 预 留 空间 ， 如 图 4-50 所 示 。 


还 是 以 上 面 的 情况 为 例 : 用 户 写 入 数据 时 ， 当 磁 到 坏 块 B， 它 不 会 
略 过 Die 1 不 写 ， 而 是 写 入 到 Block BAJE ME Block B' 上 面 去 。 


Hrs pg] fii Fa s B] 
图 4-50 ”闪存 空间 逻辑 上 分 为 用 户 空 间 和 预 留 空间 


Die 0 Die 1 Die 2 Die 3 


Hir qu] 


aj [$9 
ml m 


fot &1 45 [i] 


图 4-51 用 好 块 蔡 换 坏 块 后 写 入 


采用 替换 策略 ，SSD 内 部 需 维 护 一 张 重 映 射 表 (Remap Table) : 
坏 块 到 替换 块 的 映射 ， 比 如 图 4-51 的 B 一 B'。 当 SSD 需 要 访问 Block B 
时 ， 它 需要 查找 重 映 射 表 ， 实 际 访问 的 物理 Block 应 该 是 B'。 


我 们 看 看 两 者 策略 的 优 劣 。 

略 过 策略 的 劣势 在 于 性 能 不 稳定 。 以 4 个 Die 为 例 ， 略 过 策略 可 能 
导致 Die 的 并 行 度 在 1 和 4 个 Die 之 间 ， 而 替换 策略 并 行 度 总 是 4 个 Die， 二 
庸 置疑 ， 前 者 性 能 表现 不 如 后 者 。 但 替换 策略 有 木 桶 效应 ， 如 果 某 个 
Die 质 量 比较 差 ， 则 整个 SSD 可 用 的 闪存 块 则 受 限于 那个 坏 的 Die 。 


4.8 SLC cache 


SLC 相对 MLC 和 TLC 来 说 ， 有 更 好 的 读 写 性 能 和 更 长 的 寿命。 下 
面 是 SLC、MLC 和 TLC 在 性 能 和 寿命 (Endurance) 上 的 一 个 直观 对 
a Qs (不 同 制程 和 不 同 商家 的 闪存 ， 参 数 不 尽 相同 ， 数 据 
又 供 参 id 


表 4-10 SLC、MLC 和 TLC 寿 命 和 性 能 比较 


闪存 类 型 
每 单元 比特 数 


闪存 类 型 
REK (次 ) 
读 时 间 Cus) 

写 时 间 Cus) 
擦 除 时 间 Cus) 


由 于 SLC 有 速度 优势 ， 因 此 有 些 SSD 拿 它 来 做 Cache 使 用 ， 让 SSD 
具有 更 好 的 突 发 性 能 (Burst Performance) 。 


这 里 所 说 的 SLC Cache， 不 是 说 单独 拿 SLC 闪存 来 做 Cache， 而 是 
把 MLC 或 者 TLC 里 面 的 一 些 闪 存 块 配置 成 SLC 模式 来 访问 ， 而 这 个 特 
性 一 般 的 MLC 或 者 TLC 都 是 支持 的 。SLC 模 式 下 的 闪存 块 ， 相 比 MLC 
或 者 TLC 模 式 下 的 | 内 存 块 ， 更 快 更 耐 写 ， 可 以 用 来 做 Cache 。 

除了 性 能 ，SLC 还 有 更 好 的 耐 写 性 ， 寿 命 更 长 。 

使 用 SLC Cache 的 出 发 点 ， 主 要 有 以 下 几 点 : 


1) 性 能 考虑 : SLC 性 能 好 ， 用 户 数据 写 到 SLC 比 直接 写 到 MLC 或 
者 TLC 上 快 很 多 。 


2) 防止 Lower Page 数 据 被 带 坏 ， 用户 数 据 写 到 SLC， 不 存在 写 
Upper Page 或 者 Extra Page 市 坏 Lower Page 数 据 的 可 能 。 


3) 解决 内 存 的 缺陷 : 比如 有 些 MLC 或 者 TLC 的 闪存 块 ， 如 果 没 有 
写 满 ， 然 后 去 读 的 话 ， 可 能 会 读 到 ECC 错 误 ， 而 对 SLC 模 式 下 的 内 存 


块 ， 就 没有 这 个 问题 。 
4) 更 多 的 数据 写 入 量 : SLC 更 耐 写 。 


般 只 有 消费 级 SSD 或 者 移动 存储 (比如 eMMC、UFS 等 ) 使 用 
SLC Cache， 因 为 使 用 SLC Cache 具 有 更 好 的 突 发 性 能 ， 对 企业 级 SSD 
来 说 ， 它 追求 的 是 稳 态 速度 ， 它 不 希望 SSD 一 下 子 速 度 般 升 CE 
SLC) ， 然 后 一 下 子 速度 急剧 下 降 (STLC) 。 


另外 ， 消 费 级 SSD 和 移动 存储 产品 一 般 都 没有 电容 保护 ， 使 用 SLC 
Cache 能 保证 Lower Page 数 据 不 丢失 ; 而 企业 级 SSD 一 般 都 配 有 电容 ， 
能 保证 闪存 的 正常 写 入 ， 它 不 存在 Lower Page 数 据 被 带 坏 的 问题 ， 所 以 
没有 必要 采用 SLC Cache 这 种 手段 来 保护 数据 o 


SLC Cache 写 入 策略 有 : 


.强制 SLC 写 入 : 用 户 写 入 数据 时 ， 必 须 先 写 入 到 SLC 闪存 块 ， 然 
后 通过 GC 搬 到 MLC 或 者 TLC 闪 存 块 ; 


. 非 强 制 SLC 写 入 : 用 户 写 入 数据 时 ， 如 果 有 SLC 闪存 块 ， 则 写 入 
到 SLC 闪存 块 ， 否 则 直接 写 到 MLC 或 者 TLC 闪 存 块 。 


强制 写 入 策略 能 保护 Lower Page 数 据 ， 而 后 者 不 能 。 非 强制 SLC 写 
入 策略 ， 有 具有 更 好 的 后 期 写 入 性 能 ， 因 为 在 SLC 闪存 块 耗 尽 的 情况 下 ， 
用 户 数据 直接 写 入 到 MLC 或 者 TLC; 而 对 强制 写 入 SLC 策略 来 说 ， 它 
一 方面 要 把 SLC 的 数据 搬 到 MLC 或 者 TILC， 以 腾 出 SLC 空间 供 新 用 户 数 
D 同时 又 要 把 用 户 数据 写 入 到 SLC， 人 性 能 肯定 比 只 写 MLC 或 
TLC 慢 。 


在 这 里 可 能 有 的 读者 有 疑惑 ， 强 制 写 入 SLC 策 略 ，SLC 数 据 最 后 都 
要 搬 到 MLC 或 者 TLC， 所 以 还 是 存在 直接 写 MLC 或 者 TLC 的 事实 ， 也 
就 是 还 是 存在 Lower Page 数 据 被 带 坏 的 可 能 。 是 的 ， 没 错 ， 做 GC (XX 
据 搬移 是 有 这 个 问题 。 但 是 ， 如 果 我 们 在 目标 闪存 块 没 有 被 写 满 
前 ， 不 把 源 内 存 块 擦 除 ， 这 样 即使 Lower Page 数 据 被 带 坏 ， 它 还 是 能 通 
过 读 源 内 存 块 恢复 数据 ， 是 不 是 ? 


根据 SLCIAN 存 块 的 来 源 ， 有 以 下 几 种 SLC Cache 办 法 。 


1) 静态 SLC Cache: 拿 出 一 些 Block 专 门 用 做 SLC Cache; 


2) 动态 SLC Cache: 所 有 的 MLC 或 者 TLC 都 有 可 能 挑 来 当 SLC 
Cache，SLC 和 TLC 不 分 家 ; 


两 者 混合 : 即 既 有 专门 的 SLC 内 存 块 ， 还 能 把 其 他 通用 内存 块 
gos SLC Cache ° 


VIL 


w 


49 RD&DR 


RD 指 的 是 Read Disturb，DR 指 的 是 Data Retention。 两 者 都 能 导致 
数据 丢失 ， 但 原理 和 固件 处 理 方式 都 不 一 样 ， 下 面 分 别 介绍 。 


].RD 


对 一 个 内 存 块 来 说 ， 每 次 读 其 中 的 一 个 内 存 页 ， 都 需要 在 其 他 字 
线 (Wordline) 上 加 较 高 的 电压 以 保证 晶体 管 导 通 。 对 这 些 晶 体 管 来 
说 ， 有 点 像 在 做 轻微 的 “ 写 入 (Program) ”， 长 此 以 往 ， 由 于 电子 进入 
浮 栅 极 过 多 ， 从 而 导致 比特 翻转 : 1~0。 当 出 错 比特 数 超出 ECC 的 纪 
错 能 力 时 ， 数 据 就 会 丢失 。 这 就 是 RD 的 原理 ， 更 详细 的 内 容 可 参看 本 
书 其 他 章 丰 。RD 为 了 读 某 个 内 存 页 的 数据 ， 却 要 别 的 内 存 页 遭受 损 
失 ， 实 在 是 有 些 损人 利 已 。 


由 于 每 次 都 是 很 轻微 的 写 入 ， 要 使 存储 单元 数据 发 生变 化 ， 不 是 
一 朝 一 夕 的 事情 ， 而 是 长 期 积累 的 结果 。 因 此 ， 如 果 我 们 能 保证 某 个 
内 存 块 读 的 次 数 低 于 某 个 靖 值 ， 在 比特 发 生 翻转 之 前 (或 者 翻转 的 比 
特 低 于 某 个 值 时 ) ， 融 对 这 个 闪存 块 上 的 数据 进行 一 次 刷新 : 把 内 存 
块 上 的 数据 搬 到 别 的 内 存 块 上 (或 者 先 搬 到 别 的 内 存 块 上 ， 然 后 擦 除 
SA A 
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因此 ，FIL 应 该 有 记录 每 个 内 存 块 读 次 数 的 一 张 表 : 每 读 一 次 该 
内 存 块 ， 对 应 的 读 次 数 加 1。 当 FW 检测 到 某 个 内 存 块 读 的 次 数 超过 某 
个 闵 值 ， 束 刷新 该 内 存 块 。 当 数据 写 到 新 的 内 存 块 后 ， 读 次 数 归 零 ， 
一 切 重 新 开始 。 每 个 内 存 块 的 读 次 数 ， 挥 电 时 应 该 保存 到 内 存 上 ， 重 
新 上 电 时 ， 再 加 载 它 们 。 


事实 上 ， 当 某 个 内 存 块 上 的 读 次 数 超出 靖 值 时 ， 上 面 的 数据 翻 较 
可 能 并 没有 超过 很 多 (可 设 阐 值 ， 这 种 情况 就 没有 必要 立刻 刷新 。 
毕 竞 ， 刷 新 代 来 的 读数 据 和 写 数 据 ， 需 要 耗 时 间 和 橡 写 次 数 ， 对 性 能 
和 闪存 寿命 有 影响 。 因 此 ， 有 些 FTL 为 避免 “* 过 ”刷新 ， 可 能 会 在 读 次 
数 超过 病 值 后 ， 先 检测 比特 翻转 数 ， 然 后 决定 是 否 真正 需要 刷新 ， 如 
果 不 需要 立刻 刷新 ， 会 重 痢 设置 一 个 更 大 的 靖 值 ， 竺 下 次 读 的 次 数 达 
到 新 闽 值 后 ， 重 复 之 前 的 操作 。 


基于 读 国 值 ， 过 去 的 FTL 在 SSD 的 整个 生命 周期 中 ， 都 是 用 一 个 
固定 的 值 ， 这 种 处 理 简单 粗暴 ， 很 不 科学 〈 但 固件 实现 简单 ) 。 其 
实 ，RD 与 内 存 的 年 龄 有 关 : FREK PERAK) ， 对 RD 的 免疫 力 越 
低 。 因 此 ， 对 国 值 的 设 定 ， 采 用 动态 的 才 是 合理 的 ， 即 对 不 同 的 PE， 
读 国 值 应 该 不 同 。 上 有 具体 来 说 ，PE 越 大 ， 读 靖 值 应 该 越 小 。 


关于 刷新 动作 ， 有 Block 〈 阻 塞 ) 和 Non-block 〈 非 阻塞 ) 两 种 处 
理 方式 。 所 谓 阻 塞 方式 ， 束 是 固件 把 其 他 事情 都 放 在 一 边 ， 专 门 处 理 
内 存 块 的 刷新 ， 所 请 非 阻塞 方 式 ， 就 是 内 存 块 的 刷新 与 其 他 操作 同时 
进行 (Interleave 操 作 ) 。 前 者 处 理 方式 劣势 明显 ， 那 就 是 带 来 很 长 的 
命令 时 延 : 在 处 理 内 存 块 的 刷新 的 时 候 ， 融 不 能 执行 读 写 操作 ， 导 致 
读 写 推 后 。 随 着 闪存 块 尺寸 的 增 大 ， 这 种 处 理 方式 的 劣势 越发 凸显 。 
所 以 ， 现 在 的 FTL 一 般 都 采用 非 阻 塞 的 刷新 处 理 方 式 。 


RD 就 说 到 这 里 ， 我 们 再 说 说 DR e 


2.DR 


中 国有 人 句 古 话 ， 束 十 天 下 没有 不 透风 的 墙 。 用 到 内 存 上 ， 就 十 没 
有 电子 穿越 不 了 的 绝缘 材料 。 绝 缘 氧化 层 把 存储 在 浮 概 极 的 电子 关 在 
里 面 ， 但 是 ， 随 着 时 间 的 推移 ， 还 是 有 电子 从 里 面 跑 出 来 。 当 跑 出 来 
的 电子 达到 一 定数 量 时 ， 就 会 使 存储 单元 的 比特 发 生 翻 转 : 021 Qt 
意 ，RD 是 使 1 翻转 为 0) ， 当 出 错 比特 数 超出 ECC 的 纠 错 能 力 ， 数 据 就 
丢失 。 这 殉 能 解释 为 什么 你 的 固态 硬盘 如 果 很 长 时 间 不 用 ， 可 能 束 局 
T 或 者 局 动 很 慢 (固件 需要 处 理由 于 DR 引起 的 数据 错误 ) 的 现 


问题 来 了 ， 为 什么 SSD 长 久 不 用 数据 就 会 丢失 ， 而 经 常 使 用 却 不 
会 呢 ? 原因 是 FW 或 者 FTL 立 功 了 。 针 对 DR 这 个 问题 ， 稍 微 好 一 点 的 
SSD，FTL 都 会 有 相应 的 处 理 。 怎 么 处 理 呢 ? FTL 在 SSD 上 电 或 者 平时 
运行 时 ， 每 隔 一 段 时 间 对 闪存 空间 进行 扫描 ， 当 发 现 比特 翻转 超出 一 
定 靖 值 时 ， 跟 RD 处 理 一 样 ， 进 行 数据 刷新 ， 这 样 就 能 避免 数据 彻底 丢 
失 。SSD 如 果 常 年 不 上 电 ，FTL 根 本 就 没有 机 会 执行 这 些 操作 ， 只 能 
眼睁睁 地 看 着 电子 流失 。 


4.10 Host Based FTL 


按照 FTL 放 在 哪里 划分 ，SSD 有 Host Based FTL 和 Device Based 
FTL 两 种 模式 。 


顾名思义 ，Host Based 把 FTL 放 在 主机 驱动 程序 中 ，Device Based 
则 是 把 FTL 放 在 SSD 主 控 内 部 。 大 部 分 企业 级 SSD 和 几乎 全 部 消费 级 
SSD 都 是 Device Based，SSD 主 探 世 片 做 了 包括 FTL 在 内 的 所 有 控制 工 
作 。 也 有 一 些 企业 级 SSD 采 用 了 Host Based FTL, Sy [ul ` Eidos 
衡 、 坏 块 管理 等 都 放 在 主机 驱动 程序 中 完成 ， 这 种 模式 的 优点 是 可 以 
实现 差异 化 ， 典 型 产品 是 FusionIO ° 


4.10.1 Device Based FTL 的 不 足 
图 4-52 所 示 是 两 种 模式 的 架构 对 比 。 看 得 出 来 ， 从 逻辑 上 来 说 ， 一 
个 完整 的 Device Based SSD 系 统 可 以 分 为 三 块 : 


1) 主机 驱动 ， 为 应 用 程序 提供 读 写 搂 口 ， 和 板 载 控制 器 通过 
NVMe 等 协议 进行 交互 ， 完 成 应 用 程序 的 读 写 命令 。 


2) MEPE HAN: 
通过 SATA、NVMe 等 协议 ， 接 收 主机 发 送 的 命令 并 执行 。 


-管理 SSD， 实 现 FTL 垃 圾 回收 、 磨 损 平 衡 等 算法 。 


-控制 和 实现 内 存 时 序 。 
3) 闪存 阵列 : 存储 介质 。 


FTL 在 设备 端 FTL 在 主机 端 
Host 驱动 Host 驱动 


PCIe, NVMe 协议 实现 


PCIe 协议 实现 
Flash If Ff hi Flash I Fr dil 


NAND Flash [EYI] NAND Flash PEYI] 
图 4-52 Host Based FTL Device Based FTL 架 构 比 较 


Device Based 是 个 通用 的 架构 ， 在 SATA、NVMe 等 协议 的 广泛 普及 
下 ， 产 品 越 来 越 标 准 化 。CPU 制 造 商 提供 PCIe 或 者 SATA 支 持 ， 主 板 和 
服务 器 制造 商 为 SSD 提 供 接口 和 槽 位 ， 操 作 系 统 开 发 商 提 供 SSD 标 准 化 
驱动 程序 ，SSD 制 造 商 只 需要 制造 出 符合 SATA、SAS 或 NVMe 标 准 的 
SSD 就 可 以 出 货 了 ° 


大 家 分 工 合作 ， 互 不 干扰 ， 一 切 都 看 起 来 都 很 完美 。 在 厂商 的 立 
场 上 确实 很 完美 ， 但 对 用 户 来 说 束 不 完美 了 。SSD 之 所 以 是 一 场 存 储 革 
命 ， 是 因为 它 实在 是 不 同 于 机 械 人 硬盘 。 在 HDD 时 代 ， 用 户 只 需要 对 着 
每 个 情 区 写 数据 就 可 以 了 ， 不 管 是 什么 应 用 程序 ， 都 得 按 这 个 规矩 
来 。SSD 束 不 一 样 ， 它 包含 了 很 多 内 存心 片 ， 这 些 心 片 可 以 并 行 读 写 ， 
所 以 有 些 用 户 和 希望 能 针对 目 己 的 应 用 特点 去 直接 管理 内 存 内 部 资源 ， 
达到 更 高 的 效率 和 性 能 。 


总 体 来 说 ，Device Based 存 在 以 下 缺点 : 


FTL 架 构 通 用 ， 不 能 针对 具体 应 用 做 定制 化 。 

-控制 右 必 片 功能 复杂 ， 设 计 难 度 大 ， 研 发 成 本 高 。 

内存 更 新 很 快 ， 一 般 每 年 内 存 广 商 都 会 推出 新 一 代 产 品 ， 有 新 的 
使 用 特性 ， 需 要 控制 器 必 片 做 出 修改 ， 但 是 必 片 改版 成 本 很 高 。 

-企业 级 应 用 需要 高 性 能 、 大 容量 ， 通 用 控制 器 必 片 支持 的 最 大 性 
能 和 容量 有 限制 。 

-企业 级 市 场 需求 多 种 多 样 ， 有 些 需求 需要 控制 名 提供 特殊 功能 文 
持 ， 这 些 是 通用 SSD 主 探 忆 片 无 法 提供 的 。 


为 了 解决 这 些 问题 ， 有 些 企 业 级 SSD 采 用 了 Host Based 方 案 。 也 有 
一 些 大 型 互联 网 公司 ， 例 如 Google、Microsoft， 还 有 百度 等 ， 自 己 人 研 
cu Based SSD， 针 对 自己 的 存储 架构 ， 开 发 驱动 程序 和 控制 器 逻 
H o 


4.10.2 Host Based FTL 架 构 


Host Based SSD— MARAE E [AL EE RS kj Be L1 ELIT BR I] 
TELF. XFIT WLBE ELITS BRAVE VARI EUR ^ Tii ng INCHD AR Hd n] 
morsum 功能 比较 人 简单， 主要 实现 ECC 纠 错 和 内 存 时 序 控 

| o 


如 图 4-53 所 示 ， 主 机 驱 动 直接 管理 内 存 阵列 ， 控 制 絮 只 是 起 到 
ECC 纠 错 算法 和 物理 协议 转换 的 作用 。 


应 用 程序 该 与 接口 


控制 器 


NAND Flash 阵列 
[4-53 Host Based FTL 架 构 示 意图 


4.10.3 百度 的 软件 定义 内 存 


在 机 械 硬盘 时 代 ， 硬 盘 的 制造 技术 掌握 在 少数 几 家 大 公司 手 里 ， 
用 户 只 能 购买 。 但 是 进入 SSD 时 代 之 后 ， 硬 盘 的 制造 门槛 没有 那么 高 
了 ， 简 单 来 说 ，SSD 就 是 将 闪存 芯片 和 控制 芯片 组 装 起 来 ， 所 以 国内 很 
多 有 技术 实力 的 公司 就 想 开发 自己 的 SSD， 例 如 华为 、 百 度 等 。 


百度 、 腾 讯 、 阿 里 巴巴 以 及 Google 和 Facebook 等 互联 网 巨头 有 着 数 
量 庞大 的 服务 器 ， 每 家 都 是 十 万 台 级 别 ， 这 注定 了 它们 不 能 从 存储 厂 
商 购 买 昂 贵 的 服务 器 ， 只 能 自己 研发 廉价 的 服务 器 和 存储 设备 来 建设 
数据 中 心 。 这 个 存储 设备 也 包括 定制 化 的 SSD。 


百度 的 欧阳 剑 团 队 在 国际 著名 的 计算 机 体系 结构 学 术 会 议 
ASPLOS'14 上 发 表 了 一 篇 文 草 ， 介 绍 他 们 人 研发 的 软件 定义 内 存 SDF 
(Software Defined Flash) 。 相 比 市 场 上 销售 的 SSD，SDF 主 要 的 特点 
有 : 


1) 没有 垃圾 回收 。SDF 的 使 用 者 使 用 闪存 块 大 小 的 整数 倍 为 单位 
来 写 数据 (比如 8MB) ， 所 以 每 个 闪存 块 里 面 不 会 有 垃圾 ， 或 者 整体 
都 是 垃圾 ， 写 之 前 直接 擦 除 就 可 以 了 。 这 样 的 好 处 有 : 

.SSD 内 部 不 用 做 垃圾 回收 ， 读 写 带宽 得 到 提高 。 

不 需要 预 留 空间 ， 释 放出 20% 的 额外 空间 。 


， "没有 内 部 搬移 数据 产生 的 写 操作 ， 内 存 没有 了 写 放 入， 寿命 延 


图 4-54 ”SDF 板 
2) 没有 内 存 级 RAID。SSD 内 部 其 实 是 内 存 阵 列 ， 所 以 为 了 数据 安 
全 性 ， 很 多 企业 级 SSD 会 用 内 存 组 成 RAID 组 ， 用 一 块 或 几 块 内 存 保存 


RAID 数 据 。 但 是 互联 网 公司 的 数据 一 般 部 有 3 个 备份 ， 所 以 不 担心 SSD 
内 部 数据 丢失 ， 因 此 ，RAID 是 没有 必要 的 。 


3) FPGA 作 为 控制 芯片 ， 功 能 很 少 : ECC、 坏 块 管理 、 地 址 转 
换 、 动 态 磨损 平衡 。Virtex-5FPGA 实 现 了 PCIe 接 口 和 DMA，Spartan 
FPGA 则 是 内 存 控制 忆 片 。 


PCIExS 


11 通道 11 通道 11 通道 11 通道 


Kl4-55 SDF A] 
4) SSD 内 部 每 个 通道 都 向 用 户 开 放 ， 由 用 户 选 择 写 哪 个 通道 。 
/dev/sda /dev/sda0 一 /dev/sdaN 


"m SSD SSD SSD 

SSD 控制 器 控制 器 | | 控制 器 控制 如 
WE | 
通道 1 
SDF 


图 4-56 ”SDF 和 传统 SSD 比 较 


5) 软件 接口 层 非常 简单 ， 相 比 传统 的 Linux 存 储 堆 栈 ， 省 略 了 文 
件 系统 、 块 设备 、IO 调 度 、SATA 协 议 等 ， 用 户 直接 通过 IOCTRL GE 
备 驱 动 程序 中 对 设备 的 1/O 通 道 进行 管理 的 范 数 ) 来 发 同步 的 写 命令 到 
PCIeJKz/J, AlÉdA-57BTzR ° XE SER A 12us Af UR EI 2—- Aus, ix T HI I8] R 
是 花 在 PCIe 中 断 处 理 上 o 


传统 SSD 


用 户 空 间 用 户 空 间 
VFS 


文件 系统 块 设备 
通用 块 层 Ce 
IO 调度 器 
SCSI 中 间 层 
SATA 和 SAS | SATA 和 SAS 转换 


内 核 空间 IOCTRL 


E 


底层 设备 驱动 
传统 SSD SDF 
Direct IO Buffered IO 


图 4-57 ”SDF 和 传统 SSD IO 栈 对 比 
SDF 内 部 保存 的 数据 是 百度 自己 的 日 志文 件 系 统 数 据 ， 每 个 数据 块 
8MB » 


看 得 出 来 ， 百度 的 这 个 软件 定义 闪存 针对 目 己 的 应 用 特点 ， 仅 仅 
保留 ，SSD 设 计 得 非常 精简 ， 节 约 了 大 量 的 资源 ， 同 时 
延迟 也 很 短 。 


FTL 部 分 就 讲 到 了 这儿 ， 希 望 读者 看 完 后 有 所 收获 。 读 者 也 可 以 关注 
SSDFans 微 信 公 众 号 和 网 站 www.ssdfans.com ， 获 取 更 多 FTL 和 和 SSD 相关 


知识 VA? 


E5  PCIe2T2H 
5.1 ”从 PCIe 的 速度 说 起 


现在 ，SSD 已 经 大 跨 步 近 入 PCIe 时 代 。 作 为 SSD 的 一 项 重要 技术 ， 
我 们 有 必要 对 PCIe 有 个 基本 的 了 解 。 


为 什么 SSD 要 用 PCIe 接 口 ? 因为 它 快 ， 比 SATA 快 。 它 究竟 有 多 
Du? 我 们 首先 从 PCIe 接 口 的 速度 开始 我 们 的 PCIe 之 旅 。 


PCIe 发 展 到 现在 ， 从 PCIe 1.0、PCIe 2.0， 到 现在 的 PCIe 3.0， 速 度 
—RIE—RE, BIS-ABIZR 9 


链接 速度 
Genl 市 宽 (GB/s) 
Gen2 带宽 (GB/s) 


Gen3 带宽 (GB/s) 


2017 年 ，PCIe4.0 已 经 发 布 ， 但 本 章 内 容 仅 限 于 PCIe 3.0 或 更 早 版 
本 o 


从 链接 速度 这 一 行 我 们 看 到 x1、x2、x4...….. 这 是 什么 意思 ? 这 是 
指 PCIe 连 接 的 通道 数 (Lane) 。 了 就 像 高 速 公 路 一 样 ， 有 单车 道 、2 车 
道 、4 车 道 的 〈 见 图 5-1) ， 不 过 像 8 车 道 或 者 更 多 车 道 的 公路 不 常见 ， 
但 PCIe 是 可 以 最 多 有 32 个 Lane 的 。 


两 个 设备 之 间 的 PCIe 连 接 ， 叫 作 一 个 Link， 如 图 5-2 所 示 。 


如 图 5-2 所 示 ，A 与 B 之 间 是 个 双 回 连 搁 ， 车 可 以 从 A 驶 同 B， 同 
上 时， 车 也 可 以 从 B 驶 向 A， 各 行 其 道 。 两 个 PCIe 设 备 之 间 ， 有 专门 的 发 
送 和 接收 通道 ， 数 据 可 以 同时 往 两 个 方向 传输 ，PCIe Spec 称 这 种 工作 
模式 为 双 单 工 模式 (Dual-Simplex) ， 可 以 理解 为 全 双 工 模式 。 


pL TM 


图 5-1 PCIe Lane 类 比 高 速 公 路 通道 


Link (1 一 32lane 9?) 


[5-2 PCIe Link 的 概念 
SATA 是 什么 工作 模式 呢 ? 如 图 5-3 所 示 。 


FIS 传输 


图 5-3 SATA 工 作 模 式 
和 PCIe 一 样 ，SATA 也 有 独立 的 发 送 和 接收 通道 ， 但 与 PCIe 工 作 模 


式 不 一 样 ， 同 一 时 间 ， 只 有 一 条 通道 可 以 进行 数据 传输 。 也 就 是 说 ， 
你 在 一 条 通道 上 发 送 数 据 ， 在 为 外 一 条 通道 上 束 不 能 接收 数据 ， 反 之 
亦 然 。 这 种 工作 模式 称 为 半 双 工 模式 。 


PCIe 犹 如 我 们 的 手机 ， 双 方 可 以 同时 讲话 ， 而 SATA 就 是 对 讲 机 
了 ， 一 个 人 在 说 话 ， 另 外 一 个 人 束 只 能 听 不 能 说 。 


回 到 表 5-1， 表 中 的 带宽 ， 比 如 PCIe3.0x1， 带 宽 为 2GB/s， 是 指 双 
回 带 宽 ， 即 读 写 带宽 。 如 采 单 指 读 或 者 写 ， 该 值 应 该 减 半 ， 即 1GB/s 的 
读 速 度 或 者 写 速度 。 


我 们 来 看 看 表 里 面 的 带宽 是 怎么 算出 来 的 。 

PCIe 是 串 行 总 线 ，PCIel1.0 的 线 上 比特 传输 速率 为 2.5Gbps， 物 理 层 
使 用 8/10 编 码 ， 即 8bit 的 数据 ， 实 际 在 物理 线路 上 是 需要 传输 10bit 的 ， 
多 余 的 2bit 用 来 校 验 。 因 此 : 

PCIe1.0x1 的 带宽 = (2.5Gbpsx2 (双向 通道 ) ) /10=0.5GB/s 


这 是 单条 Lane 的 带宽 ， 有 几 条 Lane， 那 么 整个 带宽 计算 就 是 用 
0.5GB/s 乘 以 Lane 的 数目 。 


PCIe2.0 的 线 上 比特 传输 速率 在 PCIe1.0 的 基础 上 翻 了 一 倍 ， 为 
5Gbps， 物 理 层 同样 使 用 8/10 编 码 ， 所 以 : 


PCIe2.0x1 的 带宽 = (5Gbpsx2 (双向 通道 ) ) /10-1GB/s 
同样 ， 有 多 少 条 Lane， 带 宽 就 是 1GB/s 乘 以 Lane 的 数目 。 


PCIe3.0 的 线 上 比特 传输 速率 没有 在 PCIe2.0 的 基础 上 翻 倍 ， 不 是 
nos 而 是 8Gbps， 但 物理 层 使 用 的 是 128/130 编 码 进行 数据 传输 ， 
p 


PCIe3.0x1 的 带宽 = (8Gbpsx2 (双向 通道 ) x 
(128bit/130bit) ) /892GB/s 


同样 ， 有 多 少 条 Lane， 带 加 就是 2GB/s 来 以 Lane 的 数 上 日 。 


由 于 采用 了 128/130 编 码 ， 每 128bit 的 数据 ， 只 额外 增加 了 2bit 的 开 
销 ， 有 效 数 据 传输 比率 增 大 ， 虽 然 线 上 比特 传输 率 没有 翻 倍 ， 但 有 效 
数据 带宽 还 是 在 PCIe2.0 的 基础 上 实现 翻 倍 。 


这 里 值得 一 提 的 是 ， 上 面 算出 的 数据 带宽 已 经 考虑 到 8/10 或 者 
e KE, KAER WBR, 1578 VRAA IL DJ 
问题 | o 


和 SAIA 单 通道 不 同 ，PCIe 连 接 可 以 通过 增加 通道 数 扩展 带宽 ， 弹 
性 十 足 。 通 道 数 越 多 ， 速 度 越 快 。 不 过 ， 通 道 数 越 多 ， 成 本 越 高 ， 占 
用 更 多 空间 ， 还 有 就 是 更 耗 电 。 因 此 ， 使 用 多 少 通道 ， 应 该 在 性 能 和 
其 他 因素 之 间 进 行 一 个 综合 考 虚 。 单 考虑 性 能 的 话 ，PCIe 最 高 带宽 可 
达 64GB/s， 即 PCIe 3.0x32 对 应 的 带 需 ， 这 是 很 铭 怖 的 一 个 数据 。 不 
过 ， 现 有 的 PCIe SSD 一 般 最 多 使 用 4 通道 ， 如 PCIe3.0x4， 双 向 带宽 为 
8GB/s， 读 或 者 写 带 沉 为 4GB/s ° 


Intel SSD 750 参数 


2.5"15mm SFF-8639 or PCle Add-In Card (HHHL) 


Té nil ds Intel CH29AE41ABO0 
Intel 20nm 128Gbit MLC 
顺序 读 2200MB/s 2400MB/s 


900MB/s 1200MB/s 


IST 


图 5-4 Intel PCIe SSD 750 规 格 书 


在 此 ， 顺 便 来 算 算 PCIe3.0x4 理 论 上 最 大 的 4KB IOPS。PCIe3.0x4 
理论 最 大 读 或 写 的 速度 为 4GB/s， 不 考虑 协议 开销 ， 每 秒 可 以 传输 
4GB/4KB 个 4KB 大 小 的 IO， 该 值 为 IM， 即 理论 上 最 大 IOPS 为 1000k。 
因此 ， 一 个 SSD， 不 管 底层 用 什么 介质 ， 闪 存 还 是 3D XPoint， 接 口 速 
度 就 这 么 快 ， 最 大 IOPS 是 不 可 能 超过 这 个 值 的 。 


PCIe 是 从 PCI 发 展 过 来 的 ，PCIe 的 “e” 是 express 的 简称 ， 表 示 “ 快 ”。 
PCIe 怎 么 就 能 比 PCI (或 者 PCI-X) 快 呢 ? 那 是 因为 PCIe 在 物理 传输 
上 ， 跟 PCI 有 着 本 质 的 区 别 : PCI 使 用 并 口传 输 数 据 ， 而 PCIe 使 用 的 是 
串口 传输 。 我 PCI 并 行 总 线 ， 单 个 时 钟 周 期 可 以 传输 32bit 或 64bit， 怎 么 
就 比 不 了 你 单个 时 钟 周期 传输 1 个 bit 数 据 的 串 行 总 线 呢 ? 


TES ENSE EROUSS HLBHECR TROU P. OAA n] AEE A T FG 
特 ， 速 率 确 实 比 串 口 快 ， 如 图 5-5 所 示 。 随 着 技术 的 发 展 ， 要 求 数据 传 
输 速 率 越 来 越 快 ， 要 求 时 钟 频率 也 越 来 越 快 ， 但 是 ， 并 行 总 线 时 钟 频 
率 不 是 想 快 束 能 快 的 。 


传输 时 间 


发 送 


- L1 时 钟 深 移 导 致 末 样 错误 A L 
公共 时 钟 公共 时 钟 
图 5-5 并行 传输 时 序 


在 发 送 端 ， 数 据 在 某 个 时 钟 沿 传 出 去 (左边 时 钟 第 一 个 上 升 
沿 ) ， 在 接收 端 ， 数 据 在 下 个 时 钟 沿 (右边 时 钟 第 二 个 上 升 沿 ， 接 
收 。 因 此 ， 要 在 接收 端 能 正确 采集 到 数据 ， 要 求 时 钟 的 周期 必须 大 于 
数据 传输 的 时 间 《从 发 送 端 到 接收 端的 时 间 ，Flight Time) ， 受 限于 数 
据 传输 时 间 (该 时 间 还 随 着 数据 线 长 度 的 增加 而 增加 ) ， 因 此 时 钟 频 
率 不 能 做 得 太 高 。 另 外 ， 时 钟 信 号 在 线 上 传输 的 时 候 ， 也 会 存在 相位 
偏 移 (Clock Skew) ， 影 响 接收 端的 数据 采集 。 由 于 采用 并 行 传输 ， 接 
收 闹 必须 等 最 慢 的 那个 bit 数 据 到 了 以 后 ， 才 能 锁 住 整个 数据 。 


PCIe 使 用 串 行 总 线 进行 数据 传输 就 没有 这 些 问 题 。 它 没有 外 部 时 
钟 信 号 ， 它 的 时 钟 信 息 通 过 8/10 编 码 或 者 128/130 编 码 租 入 在 数据 流 ， 
接收 端 可 以 从 数据 流 里 面 恢 复 时 钟 信 息 ， 因 此 ， 它 不 受 数据 在 线 上 传 
输 时 间 的 限制 ， 导 线 多 长 、 数 据 传输 频率 多 快 都 没有 问题 。 没 有 外 部 
时 钟 信 号 ， 上 自然 就 没有 所 谓 的 相位 偏 移 问 题 。 由 于 是 串 行 传输 ， 只 有 
一 个 bit 传 输 ， 所 以 不 存在 信号 偏 移 (Signal Skew) 问题 。 但 是 ， 如 果 
使 用 多 条 Lane 传 输 数 据 〈 串 行 中 又 有 并 行 ) ， 这 个 问题 又 回来 了 ， 因 


为 接收 端 同样 要 等 最 慢 的 那个 Lane 上 的 数据 到 达 才 能 处 理 整 个 数据 。 
不 过 ， 你 不 用 担心 ，PCIe 自 己 能 解决 好 这 个 问题 。 


52 ”PCIe 拓扑 结构 


计算 机 网 络 的 拓扑 结构 是 引用 拓扑 学 中 人 研究 与 大 小 、 形 状 无 天 的 
点 、 线 关系 的 方法 ， 把 网 络 中 的 计算 机 和 通信 设备 抽象 为 一 个 点 ， 把 
c cm H RERI J LR D LE VT ROLE ER B 
TT NEA ° 


计算 机 网 络 主要 的 拓扑 结构 有 总 线 型 折 扑 、 环 形 拓扑 、 树 形 折 
扑 、 星 形 拓扑 、 混 合 型 拓扑 以 及 网 状 拓扑 。 


PCI 采 用 的 是 总 线 型 拓扑 结构 ， 一 条 PCI 总 线 上 挂 着 知 干 个 PCI 终 端 
设备 或 者 PCI 桥 设备 ， 大 家 共 至 该 条 PCI 忆 线 ， 哪 个 人 想 说 话 ， 必 须 获 
得 总 线 使 用 权 ， 然 后 才能 发 言 。 如 图 5-6 所 示 是 一 个 基于 PCI 的 传统 计 
算 机 系统 。 


ISA 


图 5-6 ”基于 PCI 的 传统 计算 机 系统 


北桥 下 面 的 那 根 PCI 总 线 ， 挂 载 了 以 太 网 设备 、SCSI 设 备 、 南 桥 以 
及 其 他 设备 ， 它 们 共享 那 条 总 线 ， 某 个 设备 只 有 获得 总 线 使 用 权 才 能 
进行 数据 传输 。 


而 PCIe 则 采用 树 形 拓扑 结构 ， 一 个 简单 而 又 典型 的 PCIe 拓 扑 结构 
如 图 5-7 所 示 。 


图 5-7 基于 PCIe 计 算 机 系统 


整个 PCIe 拓 扑 结 构 是 一 个 树 形 结构 。Root Complex (RC) 是 树 的 
根 ， 它 为 CPU 代言 ， 与 整个 计算 机 系统 其 他 部 分 通信 ， 比 如 CPU 通过 
它 访问 内 存 ， 通 过 它 访问 PCIe 系 统 中 的 设备 。 


RC 的 内 部 实现 很 复杂 ，PCIe Spec 也 没有 规定 RC 该 做 什么 ， 不 该 做 
什么 。 我 们 也 不 需要 知道 那么 多 ， 只 需 清楚 : 它 一 般 实 现 了 一 条 内 部 
PCIe 总 线 (BUS 0) ， 以 及 通过 若干 个 PCIe bridge， 扩 展 出 一 些 PCIe 
Port， 如 图 5-8 所 示 。 


PCIe Endpoint， 就 是 PCIe 终 端 设 备 ， 比 如 PCIe SSD、PCIe 网 卡 
等 ， 这 些 Endpoint 可 以 直接 连 在 RC 上 ， 也 可 以 通过 Switch 连 到 PCIe 总 线 
上 。Switch 用 于 扩展 链 路 ， 提 供 更 多 的 端口 用 以 连接 Endpoint。 拿 USB 
打 比方 ， 计 算 机 主板 上 提供 的 USB 口 有 限 ， 如 果 你 要 连接 很 多 USB 设 
备 ， 比 如 无 线 网 卡 、 无 线 鼠 标 、USB 摄 像 头 、USB 打 印 机 、U 嫩 等 ， 
USB 口 不 够 用 ， 我 会 上 网 买 个 USB HUB 用 以 扩展 接口 。 
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D | 
图 5-8 Root Complex 内 部 总 线 


Switch 扩展 了 PCIe 端 口 ， 靠 近 RC 的 那个 端口 ， 我 们 称 为 上 游 端 口 
(Upstream Port) ， 而 分 出 来 的 其 他 端口 ， 我 们 称 为 下 游 端 口 
(Downstream Port) 。 一 个 Switch 只 有 一 个 上 游 端 口 ， 可 以 扩展 出 若干 

个 下 游 端 口 。 下 游 端 口 可 以 直接 连接 Endpoint， 也 可 以 连接 Switch， 扩 
展 出 更 多 的 PCIe 端 口 ， 如 图 5-9 所 示 。 
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图 5-9 PCIe Switch 


对 每 个 Switch 来 说 ， 它 下 面 的 Endpoint 或 者 Switch， 都 是 归 它 管 
的 。 上 游 下 来 的 数据 ， 它 需要 杜 别 数据 是 传 给 它 下 面 哪个 设备 的 ， 然 
后 进行 转发 ; 下 面 设 备 癌 RC 传 数据 ， 也 要 通过 Switch 代为 转发 。 
此 ，Switch 的 作用 束 是 扩展 PCIe 端 口 ， 并 为 挂 在 它 上 面 的 设备 
(Endpoint 或 者 Switch) 提供 路 由 和 转发 服务 。 


每 个 Switch 内 部 ， 也 是 有 一 根 内 部 PCIe 总 线 的 ， 然 后 通过 若干 个 
Bridge， 扩 展 出 若干 个 下 游 端 口 ， 如 图 5-10 所 示 。 


PCI-PCI Bridge 2 


i 内 部 Bus | 
i| PCI-PCI | | PCI-PCI | | PCI-PCI |! 
i| Bridge Bridge Bridge | 

图 5-10 ”Switch 内 部 总 线 结构 


_Pcle 设 备 PCle 设 备 PCLPCI-X 


最 后 小 结 一 下 : 


PCIe 采 用 的 是 树 形 拓扑 结构 ，RC 是 树 的 根 或 主干 ， 它 为 CPU 代 

言 ， 与 PCIe 系 统 其 他 部 分 通信 ， 一 般 为 通信 的 发 起 者 。Switch 是 树 校 ， 
WELER 叶子 (Endpoint) , EPS E, Switch ExESwitch, UJTR 

ZUR. XE 了 连接 更 多 的 Endpoint e Switch 为 它 下 面 的 Endpoint 或 
Switch 提供 路 由 转 发 服务 。Endpoint 是 树叶 ， 诸 如 SSD、 网 卡 、 显 卡 
等 ， 实 现 某 些 特定 功能 (Function 。 我 们 还 看 到 有 所 谓 的 Bridge， 用 
以 将 PCIe 总 线 转换 成 PCI 总 线 ， 或 者 反 过 来 ， 不 是 我 们 要 讲 的 重点 ， 忽 
略 之 。PCIe 与 采用 总 线 共享 式 通 信 方 同 ，PCIe 采 用 点 到 点 

(Endpoint to Endpoint) 的 通信 方式 ， 每 个 设备 独 享 通道 带宽 ， 速度 和 
效率 都 比 PCI 好 。 


需要 指出 的 是 ， 虽 然 PCIe 采 用 点 到 点 通信 ， 即 理论 上 任何 两 个 
Endpoint 都 可 以 直接 通信 ， 但 实际 中 很 少 这 样 做 ， 因 为 两 个 不 同 设备 的 
数据 格式 不 一 样 ， 除 非 这 两 个 设备 是 同一 个 厂商 的 。 通 常 都 是 Endpoint 
与 RC 通信 ， 或 者 Endpoint 通 过 RC 与 男 外 一 个 Endpoint 通 信 。 


5.3 PCIe 分 层 结构 


绝 大 多 数 的 总 线 或 者 接口 ， 都 是 采用 分 层 实现 的 。PCIe 也 不 例 
外 ， 它 的 层次 结构 如 图 5-11 所 示 。 


图 5-11 PCIe 分 层 结构 


PCIe 定 义 了 下 三 层 : 事务 层 (Transaction Layer) 、 数 据 链 路 层 
(Data Link Layer) 和 物理 层 (Physical Layer， 包 括 逻 辑 子 模块 和 电气 
子 模 块 ) ， 每 层 职能 是 不 同 的 ， 但 下 层 总 是 为 上 层 服务 的 。 分 层 设计 
的 一 个 好 处 是 ， 如 果 层 次 分 得 够 好 ， 接 口 版 本 升级 时 ， 硬 件 设 计 可 能 
只 需要 改动 某 一 层 ， 其 他 层 可 以 保持 不 动 。 


PCIe 传 输 的 数据 从 上 到 下 ， 都 是 以 数据 包 (Packet) 的 形式 传输 
的 ， 每 层 数据 包 都 是 有 其 固定 的 格式 。 


事务 层 的 主要 职责 是 创建 〈 发 送 ) 或 者 解析 (接收 ) TLP 
(Transaction Layer Packet) 、 流 量 控制 、QoS、 事 务 排序 等 。 


数据 链 路 层 的 主要 职责 是 创建 (发送 ) 或 者 解析 (接收 ) DLLP 
(Data Link Layer Packet) 、Ack/Nak 协 议 ( 链 路 层 检 错 和 纠 错 ) 、 流 
控 、 电 源 管理 等 。 


物理 层 的 主要 职责 是 处 理 所 有 的 Packet 数 据 物理 传输 ， 发 送 端 数据 
分 发 到 各 个 Lane 传 输 (Stripe) ， 接 收 端 把 各 个 Lane 上 的 数据 汇总 起 来 
(De-stripe) ， 每 个 Lane 上 加 扰 〈Scramble， 目 的 是 让 0 和 1 分 布 均匀 ， 
去 除 信 道 的 电磁 干扰 EMI) 和 去 扰 (De-scramble) ， 以 及 8/10 或 者 
128/130 编 码 解 码 等 。 


这 里 先 贴 个 这 三 层 的 细节 图 ( 见 图 5-12) ° 
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数据 从 上 到 下 ， 一 层 层 打包 ， 上 层 打 包 完 的 数据 ， 作 为 下 层 的 原 
Pea HIE * BUELA GUT RE, ERTAKERRHO, TRY SHE 


Data 是 事务 层 上 层 〈 诸 如 命令 层 、NVMe 层 ) 给 的 数据 ， 事 务 层 给 
它 头 上 加 个 Header， 然 后 尾巴 上 再 加 个 CRC 校 验 ， 就 构成 了 一 个 TILP。 
这 个 TLP 下 传 到 数据 链 路 层 ， 又 被 数据 链 路 层 在 头 上 加 了 个 包 序 列 号 

(Sequence Number, SN) ， 尾 巴 上 再 加 个 CRC 校 验 ， 然 后 下 传 到 物理 
层 。 物 理 层 为 其 头 上 加 个 Start， 尾 巴 上 加 个 End 符 号 ， 把 这 些 数据 分 派 
到 各 个 Lane 上 ， 然 后 在 每 个 Lane 上 加 扰 码 ， 经 8/10 或 128/130 编 码 ， 最 
后 通过 物理 传输 介质 传输 给 接收 方 ， 如 图 5-13 所 示 ° 


Start SN Header IBI Mt: [e] To. End 


数据 链 路 层 创 建 (2 ) 
物理 层 创 建 (3 ) 
图 5-13 ”发 送 方 打包 TLP 过 程 


接收 方 物理 层 是 最 先 接收 到 这 些 数据 的 ， 抬 头 (Star) 去 尾 
(End) ， 然 后 交 由 上 层 。 在 数据 链 路 层 ， 校 验 序 列 号 和 LCRC， 如 果 
没 问 题 ， 剥 掉 序 列 号 和 LCRC， 往 事务 层 走 ， 如 果 校 验 出 差 ， 通 知 对 方 
重 传 。 在 事务 层 ， 校 答 ECRC， 有 和 错 ， 数 据 抛弃 ;， 没 锯 ， 去 挥 ECRC， 
获得 数据 。 整 个 过 程 犹如 脱衣 睡觉 ， 外 套 脱 了 ， 和 衬衫 脐 了 ， 内 衣 也 脱 
I, BIBT. WÉS-1ABTzN ° 


sar SN ELS 


事务 层 剥离 (3 ) 
数据 链 路 层 和 剥离 (2 ) 
TREES ES (1) 
图 5-14 ”接收 方 解 包 TLP 过 程 


和 PCI 数 据 裸奔 不 同 ，PCIe 的 数据 是 穿 衣 服 的 。PCIe 数 据 以 Packet 
的 形式 传输 ， 比 起 PCI 准 冰冰 的 数据 ，PCIe 的 数据 是 鲜 活 有 生命 的 。 


每 个 Endpoint 都 需要 实现 这 三 层 ， 每 个 Switch 的 Port 也 需要 实现 这 
三 层 ( 见 图 5-15) 


2 如 图 5-15 所 示 ， 如 果 RC 要 与 EP1 通 信 ， 中 间 要 经 历 怎 样 的 一 个 过 


如 采 把 前 述 的 数据 发 送 和 接收 过 程 叫 作 穿 衣 和 脱衣 ， 那 么 ，RC 与 
EP1 数 据 传 输 过 程 中 ， 则 存在 好 儿 次 这 样 穿 衣 脱衣 的 过 程 : RCTSINGE 
穿 好 衣服 ， 发 送 给 Switch 的 上 游 端 口 ，A 为 了 知道 该 笔 数据 发 送 给 谁 ， 
就 需要 脱 掉 该 数据 的 衣服 ， 找 到 里 面 的 地 址 信息 。 衣 服 脱光 后 ，Switch 
发 现 它 是 往 EP1 的 ， 又 帮 它 换 了 丑 新 衣服 ， 发 送 给 端口 B。B 叉 不 嫌 克 
烦 的 脱 掉 它 的 衣服 ， 换 上 新 衣服 ， 最 后 发 送 给 EP1， 如 图 5-16 所 示 。 
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图 5-15” RC、Switch 和 EP 都 要 实现 三 层 
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图 5-16 ”RC 和 EP 通信 


Switch 的 主要 功能 是 转发 数据 ， 为 什么 还 需要 实现 事务 层 ? Switch 
必须 实现 这 三 层 ， 因 为 数据 的 目的 地 信息 是 在 TLP 中 的 ， 如 果 不 实现 这 
一 层 ， 就 无 法 知道 目的 地 址 ， 也 束 无 法 实现 数据 寻 址 路 由 。 


5.4 PCIe TLP 类 型 


主机 与 PCIe 设 备 之 间 ， 或 者 PCIe 设 备 与 设备 之 间 ， 数 据 传输 都 是 

以 Packet 形 式 进 行 的 。 事 务 层 根据 上 层 (软件 层 或 者 应 用 层 ) 请 求 
(Request) 的 类 型 、 目 的 地 址 和 其 他 相关 属性 ， 把 这 些 请 求 打 包 ， 产 
ÆTLP (Transaction Layer Packet， 事 务 层 数据 包 ) 。 然 后 这 些 TLP 往 
下 ， 经 历数 据 链 路 层 、 物 理 层 ， 最 终 到 达 目 标 设备 。 


根据 软件 层 的 不 同 请 求 ， 事 务 层 产生 四 种 不 同 的 TLP 请 求 : 


:Memory; 


:IO; 
Configuration; 
:Message ? 


前 三 种 分 别 用 于 访问 内 存 空 间 、IO 空 间 、 配 置 空间 ， 这 三 种 请 求 
在 PCI 或 者 PCI-X 时 代 就 有 了 ， 最 后 的 Message 请 求 是 PCIe 狐 加 的 。 在 
PCI 或 者 PCI-X 时 代 ， 像 中 断 、 错 误 以 及 电源 管理 相关 信息 ， 都 是 通过 
边 带 信 号 (Sideband Signal) 进行 传输 的 ， 但 PCIe 干 挥 了 这 些 边 带 信号 
线 ， 所 有 的 通信 都 是 走 带 内 信号 ， 即 通过 Packet 传 输 ， 因 此 ， 过 去 一 些 
由 边 带 信号 线 传输 的 数据 ， 比 如 中 断 信息 、 错 误 信 息 等 ， 现 在 就 交 由 
Message 来 传输 了 。 


我 们 知道 ， 一 个 设备 的 物理 空间 ， 可 以 通过 内 存 映 射 (Memory 
Map) 的 方式 映射 到 主机 的 主 存 ， 有 些 空间 还 可 以 上 映射 到 主机 的 IO 空 
间 〈 如 果 主 机 存在 IO 空间 的 话 ) 。 但 新 的 PCIe 设 备 (区 别 于 Legacy 
PCIe 设 备 ) 只 支持 内 存 映 射 ， 之 所 以 还 存在 访问 IO 空 间 的 TLP， 完 全 是 
为 了 照顾 那些 老 设备 。 以 后 IO 映 射 的 方式 会 逐渐 取消 ， 为 减轻 学 习 压 
力 ， 我 们 以 后 看 到 IO 相 关 的 东西 ， 大 可 忽略 掉 。 


所 有 配置 空间 (Configuration) 的 访问 ， 都 是 主机 发 起 的 ， 确 切 地 
说 是 RC 发 起 的 ， 往 往 只 在 上 电 枚 举 和 配置 阶段 会 发 起 配置 空间 的 访 
问 ， 这 样 的 TLP 很 重要 ， 但 不 是 常态; Message 也 是 一 样 ， 只 有 在 有 中 
断 或 者 有 错误 等 情况 下 ， 才 会 有 Message TLP， 这 是 非 主 流 的 。PCIe 线 


上 主流 传输 的 是 Memory 访 问 相 关 的 TLP， 主 机 与 设备 或 者 设备 与 设备 
之 间 ， 数 据 都 是 在 彼此 的 Memory 之 间 〈 抛 掉 IJO) 交互 ， 因 此 ， 这 种 
TLP 是 我 们 最 常见 的 。 


这 四 种 请 求 ， 如 果 需 要 对 方 啊 应 的 ， 我 们 称 之 为 Non-Posted TLP; 
如 果 不 指望 对 方 给 响应 的 ， 我 们 称 之 为 Posted TLP。Post， 有 “邮政 ”的 
意思 ， 我 们 只 管 把 信 投 到 邮箱 ， 能 不 能 到 达 对 方 ， 就 取决 于 邮递 员 
T ° Posted TLP， 就 是 不 指望 对 方 回 复 〈 信 能 不 能 收 到 都 是 个 问题 ) ; 
Non-Posted TLP， 就 是 要 求 对 方 务必 回复 。 


哪些 TLP 是 Posted， 哪 些 又 是 Non-Posted 的 呢 ? 像 Configuration 和 IO 
访问 ， 无 论 恋 写 ， 都 是 Non-Posted 的 ， 这 样 的 请 求 必 须 得 到 设备 的 啊 
Ni; Message TLP 是 Posted 的 ;Memory Read 必 须 是 Non-Posted 的 ， 我 读 
你 数据 ， 你 不 返回 数据 (返回 数据 也 是 响应 ) ， 那 肯定 不 行 ， 所 以 
Memory Read 必 须 得 到 响应 ;而 Memory Write 是 Posted 的 ， 我 数据 传 给 
你 ， 无 须 回 复 ， 这 样 主机 或 者 设备 可 以 不 等 对 方 回复 ， 趁 早 把 下 一 笔 
数据 写 下 去 ， 这 样 一 定 程度 上 提高 了 写 的 性 能 。 有 人 会 担心 如 果 没 有 
得 到 对 方 的 啊 应 ， 发 送 者 束 没 有 办 法 知道 数据 究竟 有 没有 成 功 写 入 ， 
就 有 丢 数据 的 风险 。 虽 然 这 个 风险 存在 (概率 很 小 ) ， 但 数据 链 路 层 
提供 了 ACKVNAK 机 制 ， 一 定 程度 上 能 保证 TLP 正 确 交 互 ， 因 此 能 很 大 
程度 上 减 小 了 数据 写 失败 的 可 能 。TLP 的 请 求 类 型 如 表 5-2 所 示 。 


表 5-2 ”TLP 请 求 类 型 


请 求 类 型 Non-Posted / Posted 

Memory Read Non-Posted 
Memory Write Posted 

Memory Read Lock Non-Posted 
IO Read Non-Posted 
IO Write Non-Posted 
Configuration Read (Type 0 和 Type 1) Non-Posted 
Configuration Write (Type 0 和 Type 1) Non-Posted 
Message Posted 


所 以 ， 只 要 记 住 只 有 Memory Write 和 Message 两 种 TLP 是 Posted 的 就 
可 以 了 ， 其 他 都 是 Non-Posted 的 。 


Memory Read Locke i 5E HU38 880], Native PCIe 设 备 已 经 抛弃 了 
它 ， 它 存在 的 意义 完全 是 为 了 兼容 Legacy PCIe 设 备 。 和 IO 一 样 ， 我 们 


也 可 以 忽略 。 能 不 看 的 就 不 看 ，PCIe 内 容 本 来 就 多 ， 不 要 被 这 些 过 时 
没 用 的 东西 挡住 我 们 学 习 的 道路 。 

在 Configuration 一 栏 ， 我 们 看 到 Type 0 和 Type 1 » 在 之 前 的 拓扑 结 
构 中 ， 我 们 看 到 除了 Endpoint 之 外 ， 还 有 Switch， 他 们 都 是 PCIe 设 备 ， 
但 配置 种 类 不 同 ， 因 此 用 Type 0 和 Type 1 区 分 ， 如 表 5-3 所 示 。 


表 5-3 Native PCIe TLP 类 型 


请 求 类 型 Non-Posted / Posted 
Memory Read Non-Posted 
Memory Write Posted 
Configuration Read (Type 0 和 Type 1) Non-Posted 
Configuration Write (Type 0 和 Type 1) Non-Posted 
Message Posted 


这 样 ，Request TLP 是 不 是 清 碍 点 ? 


对 Non-Posted 的 Request， 是 一 定 需要 对 方 响应 的 ， 对 方 需要 通过 
返回 一 个 Completion TLP 来 作为 啊 应 。 对 Read Request 来 说 ， 啊 应 者 通 
过 Completion TLP 返 回 请 求 者 所 需 的 数据 ， 这 种 Completion TLP 包 含有 
效 数据 ， 对 Write Request. (现在 只 有 Configuration Write 了) 来 说 ， T 应 
者 通过 Completion TLP 告 诉 请 求 者 执行 状态 ， 这 样 的 Completion TLP 不 
含有 效 数 据 。 


因此 ，PCIe 里 面 所 有 的 TLP=Request TLP+Completion TLP ° 


表 5-4 Native PCIe 请 求 和 响应 TLP 类 型 


TLP 数据 包 类 型 缩写 

Memory Read MRd 

Memory Write MWr 
Configuration Read (Type 0O 和 Type 1 ) CfgRd0, CfgRdl 
Configuration Write ( Type O #0 Type 1) CfgWr0, CfgWrl 
Message Request with Data MsgD 

Message Request without Data Msg 

Completion with Data CpID 
Completion without Data Cpl 


看 个 Memory Read 的 例子 ， 如 图 5-17 所 示 。 


例子 中 ，PCIe 设 备 C 想 读 主机 内 存 的 数据 ， 因 此 ， 它 在 事务 层 上 生 
成 一 个 Memory Read TLP， 该 MRd 一 路 向上 ， 到 达 RC。RC 收 到 该 
Request, W 到 内 存 中 取 PCIe 设 备 C 所 需 的 数据 ，RC 通 过 Completion 
with Data TLP (CplD) 返回 数据 ， 原 路 返回 ， 直 到 PCIe 设 备 C。 


Root Complex 


cpiD A] | [] tt isa — 
1) PCIe 设备 C 发 起 读 内 存 请 求 
MRdTLP; 
) RC 接收 到 该 请 求 ， 到 内 存 中 
获取 所 需 数据 ; 
cpID MB] MRe | 3 ) Rc 把 从 内 存 中 获得 的 数据 通 
PCle 设 备 B PCle 设 备 C 过 Cp ID TLP 返回 给 设备 C; 
| 4) PCIe 设备 C 接收 Cp ID TLP, 


_Pcle 设备 A 
Switch 


获得 所 需 数 据 


图 5-17 MemoryReadzr f/l 
一 个 TLP 最 多 只 能 携带 4KB 有 效 数 据 ， 因 此 ， 上 例 中 ， 如 采 PCIe 设 
备 C 需 要 读 16KB 的 数据 ， 则 RC 必须 返回 4 个 CplD 给 PCIe 设 备 C。 注 意 ， 
PCIe 设 备 C 只 需 发 1 个 MRd 就 可 以 了 。 


再 看 个 Memory Write 的 例子 ， 如 图 5-18 所 示 。 


FTIIT 


Root Complex 


1) RC 想 往 PCIe 设备 B 上 写 人 数 
据 ， 于 是 发 起 MWr TLP; 

2) PCIe 设备 B 接收 到 MWr TLP, 
获得 RC 写 入 的 数据 


PCle 设备 B PCle 设 备 C 
图 5-18 MemoryWrite 示 例 


该 例 中 ， 主 机 想 往 PCIe 设 备 B 中 写 入 数据 ， 因 此 RC 在 其 事务 层 生 
成 了 一 个 Memory Write TLP (要 写 的 数据 在 该 TLP 中 ) ， 通 过 Switch 直 
到 目的 地 。 前 面 说 过 Memory Write TLP 是 Posted 的 ， 因 此 ，PCIe 设 备 B 
收 到 数据 后 ， 不 需要 返回 Completion TLP (如 果 这 时 返回 Completion 
TLP， 反 而 是 画蛇添足 ) ° 


同样 的 ， 由 于 一 个 TLP 只 能 携带 4KB 数 据 ， 因 此 主机 想 往 PCIe 设 备 
B 上 写 入 16KB 数 据 ，RC 必 须发 送 4 个 MWr TLP ° 


5.5 PCIe TLP 结 构 


无 论 Request TLP， 还 是 作为 回应 的 Completion TLP， 它 们 的 模样 
都 差不多 ， 如 图 5-19 所 示 。 


Transaction Layer Packet ( TLP) 


Data Payload | ^ ECRC 


图 5-19 ”TLP 数 据 格式 


TLP 主 要 由 三 部 分 组 成 :Header、Data (可 选 ， 取 决 具体 TLP 类 
型 ) 和 ECRC (可 选 ) 。TLP 都 是 始 于 发 送 端的 事务 层 (Transaction 
Layer) ， 终 于 接收 端的 事务 层 。 


每 个 TLP 都 有 一 个 Header， 跟 动物 一 样 ， 没 有 头 职 活 不 了 ， 所 以 
TLP 可 以 没 手 没 脚 ， 但 不 能 没有 头 。 事 务 层 根据 上 层 请 求 内 容 ， 生 成 
TLP Header。Header 内 容 包括 发 送 者 的 相关 信息 、 目 标 地 址 (该 TLP 要 
发 给 谁 ) 、TLP 类 型 (诸如 前 面 提 到 的 Memory Read ` Memory 
Write) 、 数 据 长 度 〈 如 果 有 的 话 ) 等 。 


Data Payload 域 ， 用 以 放 有 将 载 傈 数据 。 该 域 不 是 必需 的 ， 因 为 并 
不 是 每 个 ITLP 都 必须 携带 数据 ， 比 如 Memory Read TLP， 它 只 是 一 个 请 
求 ， 数 据 是 由 目标 设备 通过 Completion TLP 返 回 的 。 后 面 我 们 会 整理 哪 
些 TLP 需 要 携带 数据 ， 哪 些 TLP 不 带 数据 。 前 面 也 提 到 ， 一 个 TLP 最 大 
载重 是 4KB， 数 据 长 度 大 于 4KB 的 话 ， 就 需要 分 几 个 TLP 传 输 。 


ECRC (End to End CRC) 域 ， 它 对 之 前 的 Header 和 Data (WRA 
的 话 ) 生成 一 个 CRC， 在 接收 端 根据 收 到 的 TLP 重 新 生成 Header 和 Data 
(如 果 有 的 话 ) 的 CRC， 与 收 到 的 CRC 比 较 ， 一 样 则 说 明 数 据 在 传输 
过 程 中 没有 出 错 ， 否 则 就 有 错 。 它 也 是 可 选 的 ， 可 以 设置 不 加 CRC 。 


Data 域 和 CRC 域 没有 什么 好 说 的 ， 有 花头 的 是 Header 域 ， 我 们 要 次 
入 其 中 看 看 。 


一 个 Header 大 小 可 以 是 3DW， 也 可 以 是 4DW。 以 4DW 的 Header 为 
例 ，TLP 的 Header 如 下 所 示 〈 见 图 5-20) ° 


+0 xl 


4 


3 


b] 


ILU 


6 


4 


2|1|o| 7| 


Length 


Bytes 4-7 ( 跟 有 具体 TLP 相关 ) Last DW BE| 1st DW BE 


Bytes 8-11 ( 跟 具 体 TLP 相关 ) 
Bytes 12-15 ( 跟 具 体 TLP 相关 ) 


图 5-20 ”TLP 的 Header 格 式 


深 色 区 域 为 所 有 TLP Header 公 共 部 分 ， 所 有 Header 都 有 了 这些， 其 他 
则 跟 具 体 的 TLP 相 天 。 


稍微 解释 一 下 


.FEmt: Format， 表 明 该 TLP 是 否 帝 有 数据 ，Header 是 3DW 还 是 
4DW ? 


Type: TLP 类 型 ， 上 一 节 提 到 的 ， 包 括 Memory Read ` Memory 
Write ` Configuration Read ` Configuration Write ` Message 和 Completion 
As 


:R: Reserved, F0 ° 

TC: Traffic Class, TLP 也 分 二 六 九 等 优先 级 高 的 先 得 到 服务 。 
TC: 3bit， 说 明 可 以 分 为 8 个 等 级 ，0 一 7， TC 默认 是 0， 数字 越 大 ， 优 
先 级 越 高 。 

:Attr: Attrbiute， 必 性， 前 后 共 三 个 bit 。 

'TH: TLP Processing Hints ° 


TD: TLP Digest， 之 前 说 ECRC 可 选 ， 如 果 这 个 bit 置 起 来 ， 说 明 
该 TLP 包 含 ECRC， 接 收 端 应 该 做 CRC 校 验 。 


:EP: Poisoned Data, “有 毒 ” 的 数据 ， 远 离 。 


"AT: Address Type， 地 址 种 类 。 


Length: Payload 数 据 长 度 ，10 个 bit， 最 大 为 1024， 单 位 为 DW， 
所 以 TLP 最 大 数据 长 度 是 4KB; 该 长 度 总 是 DW 的 整数 倍 ， 如 果 TLP 的 
数据 不 是 DW 的 整数 倍 (不 是 4Byte 的 整数 倍 ) ， 则 需要 用 到 Last DW 
BE 和 1st DW BE 这 两 个 域 。 


到 目前 为 止 ， 对 于 Header， 我 们 只 和 需 知道 它 大 概 有 什么 内 容 ， 没 
有 必要 记 住 每 个 域 是 什么 。 


这 里 重点 讲 讲 Fmt 和 Type， 看 看 不 同 TLP (这 里 所 列 为 精简 版 的 ， 
D PCIe 设 备 所 支持 的 TLP) 的 FEmt 和 Type 应 该 怎样 编码 ( 见 表 
5-5) 。 


x ky I i 
表 5-5 ”TLP 格 式 和 类 型 域 编码 
TLP Fmt 域 Type 3 说 明 
-3DW, wir us Memory Read 不 市 数据 ， 其 Header 
Memory Read Request 0 0000 ` : 
i 5 =4DW， 不 带 数 据 大 小 为 3DW 或 4DW 
010=3DW ， 带 数据 M Write 带 数 其 Header 大 
Memory Write Request 数据 0 0000 eman Watek HERR, — 
011=4DW， 带 数据 小 为 3DW 或 4DW 


BKH iX: Endpoint 的 Configuration, 不 市 
Configuration Type 0 Read Request |000-3DW, 不 带 数 据 | 00100 | P" gie p " 
Hd. Header 总 是 3DW 


; ; ; ^j Endpoint 的 Configuration, “if 7X 
Configuration Type 0 Write Request |010-3DW, «i; dji 00100 |,, n 
]5. Header 总 是 3DW 


i£ Switch 的 Conftisuration， 不 市 数 
Configuration Type 1 Read Request |000-3DW, 不 带 数 据 | 00101 : AI ian 
lí. Header 总 是 3DW 


m Tj Switch 的 Configuration, 4j; Zt Jii, 
Configuration Type 1 Write Request |010-3DW, "ir hi 0 0101 y 


Header 总 是 3DW 


Message Request 001-4DW, vili Xs Message 的 Header 总 是 4DW 
Message Request with Data 011 = 4DW, "ir ds Message 的 Header 总 是 4DW 
Completion 000=3DW， 不 带 数 据 Completion 的 Header 总 是 3DW 
Completion with Data =3DW， 带 数据 Completion 的 Header 总 是 3DW 


如 表 5-5 所 示 ，Configuration 和 Completion 的 TLP 〈 以 C 打 头 的 
TLP) 的 Header 大 小 总 是 3 字 节 ; Message TLP 的 Header 总 是 4 字 节 。 而 
Memory 相 关 TLP 的 Header 取 决 于 地 址 空间 的 大 小 ， 地 址 空间 小 于 4GB 
的 ，Header 大 小 为 3DW; 大 于 4GB 的 ，Header 大 小 则 为 4DW 。 


上 面 介绍 了 几 个 TLP Header 的 通用 部 分 ， 下 面 分 别 介 绍 具体 TLP 的 
Header ° 


1.Memory TLP 


有 两 个 重要 的 内 容 在 前 面 没 有 提 到 ， 那 束 是 TLP 的 源 和 目标 。 即 该 
TLP 走 哪里 产生 的 ， 它 要 到 哪里 去 ， 这 些 信息 都 是 包 侣 在 Header 里 面 
的 。 因 为 不 同 的 TLP 类 型 ， 寻 址 方式 不 同 ， 因 此 要 结合 具体 TLP 来 看 。 


4DW Memory Request Header 


+2 +3 


Jal 


211[0|7]|6 2|1[0|7[|6 1|0|7[6|5|4|3]|2 


Length 


Last DW Ist DW 
BE BE 


4|3|2|1 6|5 3|2 


Length 


D 
LastDW | IstDW 0 
BE BE 


图 5-21 Memory TLP 的 Header 
对 一 个 PCIe 设 备 来 说 ， 它 开放 给 主机 访问 的 设备 空间 百 移 会 映射 


到 主机 的 内 存 空间 ， 主 机 如 果 想 访问 设备 的 某 个 空间 ，TLP Header“ 
中 的 地 址 应 该 设置 为 该 访问 空间 在 主机 内 存 的 映射 地 址 。 如 果 主 机 内 
存 空间 小 于 4GB， 则 Memory 读 写 TLP 的 Header 大 小 为 3DW; 大 于 
4GB， 则 为 4DW。 对 4GB 内 存 空 间 ，32bit 的 地 址 用 1DW 就 可 以 表示 ， 
该 地 址 位 于 Byte8-11; 而 4GB 以 上 的 内 存 空间 ， 需 要 用 2DW 表 示 地 址 ， 
该 地 址 位 于 Byte8-15。 


该 TLP 经 过 Switch 的 时 候 ，Switch 会 根据 地 址 信息 ， 把 该 TLP 转 发 
到 目标 设备 。 之 所 以 能 唯一 地 找到 目标 设备 ， 是 因为 不 同 的 Endpoint 设 
备 空 间 会 映射 到 主机 内 存 鹤 间 的 不 同位 置 。 


关于 TLP 路 由 ， 后 文 还 会 详细 介绍 。 


Memory TLP 的 目标 是 通过 内 存 地 址 告知 的 ， 而 源 则 是 通 
过 “Requester ID 后 知 的 。 每 个 设备 在 PCIe 系 统 中 都 有 唯一 的 ID ， 该 ID 
由 总 线 (Bus) 、 设 备 (Device) 、 功 能 (Function) 三 者 唯一 确定 。 
这 个 后 面 也 会 专门 讲 ， 这 里 只 需 知 道 一 个 PCIe 组 成 有 唯一 的 一 个 ID， 
AVE AERC ^ Switch; zi Endpoint ° 


2.Configuration TLP 


Endpoint 和 Switch 的 配置 (Configuration) 格式 不 一 样 ， 分 别 由 
Type 0 和 Type 1 来 表示 。 配 置 可 以 认为 是 一 个 Endpoint 或 者 Switch 的 标 
准 空 间 ， 这 段 空间 在 初始 化 时 需要 映射 到 主机 的 内 存 空间 。 与 设备 的 
其 他 空间 不 同 ， 该 空间 是 标准 化 的 ， 即 不 管 是 哪个 厂家 生产 的 设备 ， 
都 需要 有 这 段 空 间 ， 而 且 哪 个 地 方 放 什么 东西 ， 都 是 协议 规定 好 的 ， 
主机 按 协议 访问 这 部 分 空间 。 主 机 软件 访问 PCIe 设 备 的 配置 空间 ，RC 
会 生成 Configuration TLP 与 Switch 或 EP 交互 。 


如 表 5-22 所 示 是 访问 Endpoint 的 配置 空间 的 TLP Header (Type 


Fmt Type j = Hİ T |E | Attr 
0x0 0010 x 0 O0|D|P| 00 


0) 


i Requester ID 
Device Func Ext Reg !: Register 
Bus Number A E T MGE R e . 
Function Number with ARI Number | Number 


图 5-22 Type OConfiguration TLP 的 Header 


Bus Number+Device+Function 束 唯一 决定 了 目标 设备 ，Ext Reg 
Number+Register Number 相 当 于 配置 空间 的 偏 移 。 找 到 了 设备 ， 然 后 指 
on EAI, LEE De 4. SALUS AA E IRI RJ A1 DRE 

RS S 9 


3.Message TLP 


Wo E. TLPHRiT fe PA ^ EC CBUBESHSR( ER. BUVPCIBI 
代 的 边 市 信号 传输 。Message TLP 的 Header 大 小 总 是 4DW， 如 图 5-23 所 
示 “。 


Message Code 指 定 该 Message 的 类 型 ， 具 体 如 下 图 5-24 所 示 。 


不 同 的 Message Code， 最 后 两 个 DW 的 意义 也 不 同 ， 这 里 不 再 展 


4.Completion TLP 
有 Non-Posted Request TLP， 才 有 Completion TLP， 有 因 才 有 采 。 
前 面 看 到 ，Requester 的 TLP 当 中 都 有 Requester ID 和 Tag， 来 告知 接收 


者 、 发 起 者 是 谁 。 那 么 啊 应 者 的 目标 地 址 殉 很 简单 ， 照 抄 发 起 者 的 源 
地 址 就 可 以 了 。Completion TLP 的 Header 如 图 5-25 所 示 。 


+0 +1 +2 
4|3|211 3|2| 1 | 
. Fmt Ty pe At = = - Attr | AT 
MESAER 
Byte 4 R ster ID 
Byte 8 Bytes 8-11 ( 跟 Message code 相关 ) 
Byte 12 Bytes 12-15 ( 跟 Message code 相关 ) 


[5-23 Message TLP 的 Header 
Message Code [7:0] Byte 7 Bit 7:0 | 这 个 域 表示 发 送 message 的 类 型 


0000 0000b = Unlock Message 

0001 0000b = Lat. Tolerance Reporting 
0001 0010b = Optimized Buffer Flush/Fill 
0001 xxxxb = Power Mgt. Message 


0010 0xxxb = INTx Message 

0011 00xxb = Error Message 

0100 xxxxb = Ignored Messages 

0101 0000b = Set Slot Power Message 
0111 111xb = Vendor-Defined Messages 


图 5-24 “Messagecode 域 解释 


+0 + +2 +3 


7 |6 4|3|2|1|o 7|6 4|s|2]1 |o 7 le|s|«|s|2 |i ]o 7 |e|s]4 2 |1|o 


A Fmt Type ; At IH|T|E| Attr | AT 
B 


Compl. 
Status 


B 


4 
3 


2 


Byte 4 Completer ID Byte Count 


M 
Byte 8 Requester ID ne R Lower Address 


图 5-25 Completion TLP 的 Header 
Completion TLP 一 方面 ， 可 以 返回 请 求 者 的 数据 ， 比 如 作为 
Memory 或 Configuration Read 的 啊 应 ; 另 一 方面 ， 还 可 以 返回 该 事务 
(Transaction) 的 状态 。 因 此 ， 在 Completion TLP 的 Header 中 有 一 个 
Completion Status， 用 以 返回 事务 状态 ( 见 图 5-26) 。 


Header 


Compl. Status [2:0] Byte 6 Bit7:5 | These bits indicate status for this Com- 
(Completion Status pletion. 
Code) 000b = Successful Completion (SC) 


001b = Unsupported Request (UR) 
010b = Config Req Retry Status (CRS) 
100b = Completer abort (CA) 


图 5-26 Completion Status Code 


5.6 ”PCIe 配置 和 地 址 空间 


每 个 PCIe 设 备 剖 有 这 样 一 段 空间 ， 主 机 软件 可 以 通过 读 取 它 获得 
该 设备 的 一 些 信息 ， 也 可 以 通过 它 来 配置 该 设备 ， 这 段 空间 就 称 为 
PCIe BU RE s 间 。 不 同 于 每 个 设备 的 其 他 空间 ，PCIe 设 备 的 配置 空间 
苹 协议 规定 好 的 ， 哪 个 地 方 放 什 么 内 容 ， 痢 是 有 定义 的 。PCI 或 者 PCI- 
X 时 代 就 有 配置 空间 的 概念 ， 具 体 如 图 5-27 所 示 。 


整个 配置 空间 就 是 一 系列 寄存 器 的 集合 ， 由 两 部 分 组 成 :， 64B 的 
Header 和 192B 的 Capability 数 据 结 构 。 


进入 PCIe 时 代 ，PCIe 能 耐 更 大 ，192B 不 足以 罗列 它 的 绝活 。 为 了 
保持 后 向 兼容 ， 叉 要 不 把 绝活 落下 ， 怎 么 办 ? 很 简单 ， 扩 展 后 者 的 空 
ie 把 整个 配置 空间 由 256B 扩 展 成 4KB， 前 面 256B 保 持 不 变 ( 见 图 5- 
28) 。 


64-byte 

PCI 配置 
空间 的 

Header 


图 5-27 ”PCI 设备 的 256B 配 置 空间 


64-byte 
PCI 配置 空间 的 
Header 


3840-byte 
PCle 扩展 配置 
宵 存 器 空间 


图 5-28 ” PCIe 设备 的 4KB 配 置 空间 


PCIe 有 什么 能 耐 (Capability) 我 们 不 看 ， 先 看 看 只 占 64B 的 
Configuration Header ( 见 图 5-29) ° 


KH, Type 0Header 是 Endpoint 的 Configuration Header, Type 
1Header 是 Switch 的 Configuration Header 。 


像 Device ID ` Vendor ID ` Class Code 和 Revision ID 是 只 读 寄 存 器 ， 
PCIe 设 备 通 过 这 些 寄存 器 告诉 主机 软件 ， 这 是 哪个 厂家 的 设备 、 设 备 
ID 是 多 少 以 及 是 什么 类 型 的 网卡、 显卡 、 桥 ) 设备 。 


其 他 的 我 们 暂时 不 看 ， 我 们 看 看 重要 的 BAR (Base Address 
Register) 。 


对 Endpoint Configuration (Type 0) 提供 了 最 多 6 个 BAR， 而 对 
Switch (Type 1) 来 说 只 有 2 个 。BAR 是 做 什么 的 ? 


每 个 PCIe 设 备 ， 都 有 上 自己 的 内 部 空间 ， 这 部 分 空间 如 果 开 放 给 主 
机 《软件 或 者 CPU) 访问 ， 那 么 主机 怎样 才能 往 这 部 分 空间 写 入 或 者 
读数 据 呢 ? 


我 们 知道 ，CPU 只 能 直接 访问 主机 内 存 (Memory) 空间 (或 者 IO 


空间 ) ， 不 能 对 PCIe 等 外 设 进 行 直接 操作 。 怎 么 办 ? 记得 前 文 提 到 的 


RC 吗 ? 它 可 以 为 CPU 分 忧 。 


Type 0 Header Type 1 Header 
Byte Doubleword Byte Doubleword 
3 2 1 0 $ 3 2 1 0 
Device ID Vendor ID 00 Device ID Vendor ID 00 
Status Command 01 Status Command 01 
Revision Revision 
Class Code 2 Class Code 
ID ID 
BIST Header Latency — Line 03 BIST Header Latency Cache Line 3 
Type Timer Size Type Timer Size 
Base Address 0 04 Base Address 0 04 
Base Address 1 05 Base Address 1 05 
! NEC Secondary | Subordinate | Secondary Primary 
Base Address 3 07 Secondary Status 07 
i on aa os 
Prefetchable Prefetchable 
Base Address 5 09 "i 09 
Memory Limit Memory Base 
CardBus CIS Pointer 10 Prefetchable Base-Upper 32-bits 10 
Subsystem ID Subsystem Vendor ID 11 Prefetchable Limit-Upper 32-bits 11 
; T/O Limit LO Base 
Expa ROM Base Addr 12 / $ 12 
pes ES sd Upper 16-bits Upper 16-bits 
Reserved £ jim 13 Reserved Capabilities Pointer 13 
Pointer | 
Reserved 14 Expansion ROM Base Address 14 
. Int t " : Interrupt x 
Max_Lat Min Gnt : T Interrupt Line| 15 Bridge Control i Interrupt Line | 15 


图 5-29 配置 空间 的 Header 


解决 办 法 是 : CPU 如 果 想 访问 某 个 设备 的 空间 ， 由 于 它 不 能 亲 目 
跟 那 些 PCIe 处 设 打 交道 ， 因 此 叫 RC 去 办 。 比 如 ， 如 果 CPU 想 读 PCIe 外 
设 的 数据 ， 先 叫 RC 通 过 TLP 把 数据 从 PCIe 外 设 读 到 主机 内 存 ， 然 后 
CPU 从 主机 内 存 读数 据 ， 如 果 CPU 要 往外 设 写 数据 ， 则 先 把 数据 在 内 
存 中 准备 好 ， 然 后 叫 RC 通 过 TLP 写 入 到 PCIe 设 备 。 


图 5-30 的 最 左边 的 虚线 表示 CPU 要 读 Endpoint A 的 数据 ，RC 则 通过 
TLP (经 历 Switch) 数据 交互 获得 数据 ， 并 把 它 写 入 到 系统 内 存 中 ， 然 
后 CPU 从 内 存 中 读 取 数据 〈 深 色 实 线 箭头 所 示 ) ， 从 而 CPU 间接 完成 
对 PCIe 设 备 数据 的 读 取 。 


具体 实现 就 是 上 电 的 时 候 ， 系 统 把 PCIe 设 备 开 放 的 空间 〈 系 统 软 
件 可 见 ) 映射 到 内 存 地 址 空间 ，CPU 要 访问 该 PCIe 设 备 空间 ， 只 需 访 
问 对 应 的 内 存 地 址 空间 。RC 检 查 该 内 存 地 址 ， 如 果 发 现 该 内 存 空 间 地 
址 是 某 个 PCIe 设 备 空间 的 映射 ， 就 会 触发 其 产生 TLP， 去 访问 对 应 的 
PCIe 设 备 ， 读 取 或 者 写 入 PCIe 设 备 。 


一 个 PCIe 设 备 ， 可 能 有 若干 个 内 部 空间 (属性 可 能 不 一 样 ， 比 如 
有 些 可 预 恋 ， 有 些 不 可 预 恋 ) 需要 映射 到 内 存 空间 ， 设 备 出 三 时 ， 这 
些 空间 的 大 小 和 属性 都 写 在 Configuration BARA feg, EBJA, 
系统 软件 读 取 这 些 BAR， 分 别 为 其 分 配对 应 的 系统 内 存 地 址 空间 ， 并 
把 相应 的 内 存 基地 址 写 回 到 BAR (BAR 的 地 址 其 实 是 PCI 总 线 域 的 地 
址 ，CPU 访 问 的 是 存储 器 域 的 地 址 ，CPU 访 问 PCIe 设 备 时 ， 需 要 把 总 
线 域 地 址 转换 成 存储 器 域 的 地 址 ) 。 


Endpoint A Endpoint B 
图 5-30 ”CPU 与 EP 通信 示例 


如 图 5-31 所 示 ，Native PCIe Endpoint (Switch 右 下 ) 只 支持 
Memory Map， 它 有 两 个 不 同属 性 的 内 部 空间 要 开放 给 系统 软件 ， 
此 ， 它 可 以 分 别 映射 到 内 存 (Memory， 不 是 DRAM 区 域 ) 地 址 空间 的 
两 个 地 方 ; 还 有 一 个 Legacy Endpoint， 它 既 支 持 Memory Map， 还 支持 
Map : 它 也 有 两 个 不 同属 性 的 内 部 空间 ， 分 别 映射 到 系统 内 存 空间 
HIO 空 间 。 


Legacy 


PCIe Memory MEH} 
Endpoint 


Endpoint 2?" or2*' 


MMIO 


MMIO (P) ( Prefetchable ) 
MMIO 
MMIO (NP) 
( Non-Prefetchable ) 


系统 内 存 
(DRAM) 


图 5-31 Memory t ET RIT/OBRS zr 1 
下 面 ， 我 们 来 看 一 下 ， 对 于 PCIe 设 备 ， 系 统 软件 是 如 何 为 其 分 配 


映射 空间 的 〈 见 图 5-32) 。 


， 系 统 软 件 首 先 会 读 取 PCIe 设 备 的 BAR0， 得 到 数据 〈 见 图 
5-33 


然后 系统 软件 往 该 BAR0 写 入 全 1 ( 见 图 5-34) ° 
BAR 寄 存 器 有 些 bit 是 只 读 的 ， 是 PCIe 设 备 在 出 厂 前 就 固定 好 的 


bit， 写 全 1 进去 ， 如 采 值 傈 持 不 要 ， 束 说 明 这 些 bit 是 上 家 固化 好 的 ， 这 
些 固化 好 的 bit 提 供 了 这 块 内 部 空间 的 一 些 信息 : 


Type 0 Header 


31 23 15 7 0 
Device ID Vendor ID 00h 
Command | 04h iii 
31 12 4321 0 
Class Cod Cace logy 
STONE Linee XXXX XXXX XXXX XXXX XXXX | 00000000 [0/000 (1) 
BIST Header | Latency | Cache 


: A : c à 
Type Timer | Line Size BAR 全 部 写 1 


Base Address 0 (BARO ) Oh 31 12 43 2. 0 
Base Address 1 (BARI) 14h 1111 1111 1111 1111 1111 | 00000000 |0/00|0 |(2) 


Base Address 2 (BAR2 ) 18h 


BAR J À base address 
Base Address 3 (BAR3 ) 1Ch 
31 12 43 241 6 
Base Address 4 (BAR4 ) 20h 
1111 1001 0000 0000 0000 | 00000000 | O 100,0 |( 3) 
Base Address 5 (BARS ) 24h 
(F) (9) (0) (0) (0) T 
CardBus CIS Pointer 28h 0 — Memory request 
Subsystem Subsystem 2Ch 1 — IO request 

Device ID Vendor ID 00 = 32-bit decoding 

Expansion ROM Base Address 30h 10 = 64-bit decoding 

pestrved Capability 34h 0 = non-prefetchable 

Pointer 1 = prefetchable 
Reserved 38h Upper 20 bits of 4KB aligned 


start address (lower 12 bits assumed to be = 0 ) 


Interrupt | Interrupt 
p Er ach (F900 0000h) 


Max Lat | Min Gnt ; . 
— ii Pin Line 


图 5-32 ”BAR0 设 置 示例 
没有 初始 化 的 BAR 


3l 12 tS LL d 
coc NN seo xxx [00000000 [o] vo [o 
图 5-33 ”设备 初始 BAR0 值 
BAR 全 部 写 1 
3l 12 4d ELM 


1111 1111 1111 1111 1111 | 00000000 o o 


图 5-34 ”系统 软件 往 BAR0 写 入 全 1 后 的 值 


如 何 解 读 ? 低 12 位 没 变 ， 表 明 该 设备 空间 大 小 是 4KB (2 的 12 次 方 
字 节 ) ， 然 后 低 4 位 表明 了 该 存储 空间 的 一 些 属性 (IO 映射 还 是 内 存 映 
Hi? 32bit 地 址 还 是 64bit 地 址 ? 能 否 预 取 ? 做 过 单片机 的 人 可 能 知道 ， 
有 些 寄存 器 只 要 一 读 ， 数 据 就 会 清 掉 ， 因 此 ， 对 这 样 的 空间 ， 是 不 能 
预 读 的 ， 因 为 预 读 会 改变 原来 的 值 ) ， 这 些 都 是 PCIe 设 备 在 出 厂 前 都 
设置 好 的 ， 提 供给 系统 软件 的 信息 。 

然后 系统 软件 根据 这 些 信息 ， 在 系统 内 存 空间 找到 这 样 一 块 地 方 
来 映射 这 4KB 的 空间 ， 把 分 配 的 基地 址 写 入 到 BAR0 ( 见 图 5-35) ° 


BAR 与 人 Base Address 
31 12 43 21 0 


[un o0 6006 000 0000 [00000000 [o o0 [v 


(F) (9) (0) (0) (0) 


AKB 对 齐 的 高 20 位 起 始 地 址 
( 低 12 位 应 当 为 0 ) 


AP 


F900 0000h ) 
图 5-35 ”主机 软件 为 该 空间 分 配 地 址 空间 后 BARO 的 值 


从 而 完成 了 该 PCIe 空 间 的 映射 。 一 个 PCIe 设 备 可 能 用 和 干 个 内 部 
空间 需要 开放 出 来 ， 系 统 软件 依次 读 取 BAR1、BAR2..…. 直 到 BAR5， 
完成 所 有 内 部 空间 的 映射 。 


上 面 主 要 讲 了 Endpoint 的 BAR，Switch 也 有 两 个 BAR， 这 里 不 展开 
讲 ， 下 地 讲 TLP 路 由 的 时 候 再 回 过 头 来 讲 。 下 面 我 们 继续 说 配置 空间 。 


前 面 说 每 个 PCIe 设 备 都 有 一 个 配置 空间 ， 其 实 这 样 的 说 法 是 不 准 
确 的 ， 而 是 每 个 PCIe 设 备至 少 有 一 个 配置 空间 。 一 个 PCIe 设 备 可 能 具 
有 多 个 功能 (Function) ， 比 如 既 能 当 硬 盘 ， 还 能 当 网 卡 ， 每 个 功能 对 
应 一 个 配置 空间 。 


在 一 个 PCIe 拓 扑 结构 里 ， 一 条 总 线 下 面 可 以 挂 几 个 设备 ， 而 每 个 
设备 可 以 具有 几 个 功能 ， 如 岁 5-36 所 示 。 


CPU 


Host/PCI 
Bridge 


Bus 1 Bus 2 
Dev 0 Dev 2 
Func 0 
Emm "9 
yr wem 
Sen Virtual 
Dev 1 P?P 
Func 0 
Virtual Virtual 
P2P P2P 
| ] Le mE | | 
Bus 3 Bus 4 Bus 7 Bus 8 Bus 10 
[ze RE: (corem VEBNEJ 
Function O0 Function 1 Function 0 Function 0 Function 0 
Dev 0 Dev 0 Dev 0 [pem Dev 0 
Bus 8 
Express Dev 0 
PCIBridge Func 0 
PCI Bus Bus 9 
PCI PCI PCI 
Device Device Device 
Dev 1 Dev 2 Dev 3 
Func 0 Func 0 Func 0 


[5-36 ”PCIe 中 的 Bus、device 和 和 function 


因此 ， 在 整个 PCIe 系 统 中 ， 只 要 知道 了 Bus No.+Device 
No.+Function No.， 就 能 找到 唯一 的 Function ° 


寻 址 基本 单元 是 功能 ， 它 的 ID 由 Bus+Device+Function 组 成 
(BDF) 。 一 个 PCIe 系 统 ， 可 以 最 多 有 256 条 Bus， 每 条 Bus 上 最 多 可 以 
挂 32 个 设备 ， 而 每 个 设备 最 多 义 能 实现 8 个 Function， 每 个 Function 对 应 
4KB 的 配置 空间 。 上 电 时 ， SUR RES x 间 都 需要 映射 到 主机 的 内 存 地 
址 空间 (PCIe 域 ， 非 DRAM 区 域 ) °。 这 块 内 存 地 址 映射 区 域 大 小 为 : 
256x32x8x4KB=256MB。 注 意 ， 这 只 是 内 存 空间 的 某 个 区 域 ， 不 占用 
DRAM 空 间 。 


系统 软件 如 何 读 取 Configuration 空 间 呢 ? 不 能 通过 BAR 中 的 地 址 ， 
为 什么 ? 别 忘 了 了 BAR 是 在 Configuration 中 的 ， 你 首先 要 读 取 
Configuration， 才 能 得 到 BAR。 系统 不 是 为 所 有 可 能 的 Configuration 空 
间 做 了 内 存 映射 吗 ? 系统 软件 想 访问 哪个 Configuration， 只 需 指定 相应 
Function 对 应 的 内 存 空间 地 址 ，RC 发 现 这 个 地 址 是 Configuration 映 射 空 
间 ， 就 会 产生 相应 的 Configuration Read TLP (映射 地 址 -BDF) 去 获 
得 相应 Function 的 Configuration ° 


再 回想 一 下 前 面 介 绍 的 Configuration Read TLP 的 Header 格 式 ( 见 图 
5-37) 。 


id. |o|7|s 


Bvte 0 Fmt Type TE, TH| T|E| Attr | AT Length 
Y*"| oxg 0010 x 000 0|D|P| 00 | 00 0000000001 
Last DW BE Ist DW 
Device Func i 
Byte 8 Bus Number Rsvd Fat Reg | Register 
Function Number with ARI Number | Number 


图 5-37  ConfigurationRead TLPÉ Header 


N 


Bus Number+Device+Function 就 唯一 决定 了 目标 设备 ;Ext Reg 
Number+Register Number 相 当 于 配置 空间 的 偏 移 。 找 到 设备 ， 然 后 指定 
e 的 偏 移 ， 就 能 找到 具体 想 访问 的 配置 空间 的 某 个 位 置 (寄存 
für o 


请 注意 ， 只 有 RC 才能 发 起 Configuration 的 访问 请 求 ， 其 他 设备 是 
不 允许 对 别 的 设备 进行 Configuration 读 写 的 。 


5.7 ”TLP 的 路 由 
一 个 TLP 是 怎样 历经 千 山 万 水 ， 最 后 顺利 抵达 目的 地 的 呢 ? 


下 面 就 以 图 5-38 所 示 的 简单 拓扑 结构 为 例 ， 讨 论 一 个 TLP 是 怎样 从 
发 起 者 到 达 接 收 者 ， 即 TLP 的 路 由 问题 。 


Root Complex 


PCle 设备 
Switch 


PCle 设备 PCle 设备 PCUPCEX 


图 5-38 ”TLP 如 何 传输 ? 
PCIe 共 有 三 种 路 由 方式 : 基于 地 址 (Memory Address) 路 由 、 基 
于 设备 ID (Bus Number+Device Number+Function Number) 路 由 ， 还 有 
就 是 隐 式 (Implicit) 路 由 。 


表 5-6 ”TLP 路 由 方式 


TLP 类 型 路 由 方式 
Memory Read/Write TLP 地 址 路 由 
Configuration Read/Write TLP ID 路 由 
Completion TLP ID 路 由 


Message TLP 地 址 路 由 或 者 ID 路 由 或 者 隐 式 路 由 


不 同类 型 的 TLP， 其 寻 址 方式 也 不 同 ， 表 5-6 总 结 了 每 种 TLP 对 应 
的 路 由 方式 。 


下 面 分 别 讲述 这 几 种 路 由 方式 。 
1. 地 址 路 由 
前 面 提 到 ，Switch 负 责 路 由 和 TLP 的 转发 ， 而 路 由 信息 是 存储 在 


We s 则 的 ， 因 此 ， 很 有 必要 先 理解 Switch 的 
Configuration 〈 见 图 5-39) ° 


BAR0 和 BAR1 没 有 什么 好 说 ， 跟 前 节 讲 的 Endpoint 的 BAR 意 义 一 
样 ， 存 放 Switch 内 部 空间 在 主机 内 存 空 间 映 射 基 址 。 


Switch 有 一 个 上 游 端 口 (靠近 RC) 和 若干 个 下 游 端 口 ， 每 个 端口 
其 实 是 一 个 Bridge， 都 有 一 个 Configuration ， 全 人 yir 
其 下 面 连接 设备 空间 映射 的 范围 ， 分 别 由 Memory Base 和 Memory Limit 
来 表示 。 对 上 族 端 口 ， 其 Configuration 描 述 的 地 址 ;i 范围 是 它 下 游 所 有 设 
备 的 映射 空间 范围 ， 而 对 每 个 下游 端 口 的 Configuration ， 摘 述 了 连接 它 
m 135€ 8r BJ ECT a [RT TG. ES] 


前 面 我 们 看 到 ，Memory Read 或 者 Memory Write TLPÉ Header ¥ H 
vi pro el 该 地 址 是 PCIe 设 备 内 部 空间 在 内 存 中 的 映射 地 址 
见 图 5-40) ° 


当 一 个 Endpoint 收 到 一 个 Memory Read 或 者 Memory Write TLP, 它 
会 把 TLP Header 中 的 地 址 跟 Configuration 当 中 所 有 的 BAR 寄 存 器 比较 ， 
如 果 TLP Header 中 的 地 址 落 在 这 些 BAR 的 地 址 空间 ， 那 么 它 就 认为 该 
TLP 是 发 给 它 的 ， 于 是 接收 该 TLP， 否 则 就 忽略 ， 如 图 5-41 所 示 。 


Type 1 Header 
5 0 


1 1 
om 
M 
Class Code Cute [nsi 
Line Size 
Header |Latency | Cache 
BIST : : 3 OCh 


3 


Base Address 0 (BARO ) 10h 

14h 

Secondary |Subordinate| Secondary 18h 
Lat Timer Bus # Bus # 

IO 

20h 

24h 

28h 

2Ch 

30h 

34h 

38h 

Bridge 3Ch 


Control 


图 5-39 Type 1Configuration Header 


3DW Header 地 址 路 由 
+1 


7|s|s |4|3|2]1]o 


42 


2 +3 
?|e|s|4|s|a]1 |o 


|e|s|4|s]2|1 |o 


+0 
7 |e|s|4|s]2]1 o 


Attr | AT 


At T|T [E 
04] TG 
~ tr H|D|P 


Bytes 4-7 取决 于 TYPE 域 


图 5-40 ”地 址 路 由 3DW 的 TLP Header 
Type 0 Header 
31 15 0 

Device ID Vendor ID 00h 
Status Command 04h 
Class Code oped 08h 

Line Size 
Header | Latency Cache OCh 

Type Timer | Line Size 


Base Address 0 (BARO ) 
Base Address 1 (BARI ) 
Base Address 2 (BAR2 ) 
Base Address 3 (BAR3 ) 
Base Address 4 (BARA ) 
Base Address 5 (BARS) 


CardBus CIS Pointer 28h 
Subsystem Subsystem 2Ch 
Device ID Vendor ID "s 

Expansion ROM Base Address 30h 


Capability 
Pointer 


Reserved 


Reserved 


à Int t Int t 
Maz Lat | MinGnt | PE | "ep ach 
Pin Line 


图 5-41 EP 通过 对 比 目 的 地 址 和 自己 的 BAR 决 定 是 否 接 收 该 TLP 


当 一 个 Switch 上 游 端 口 收 到 一 个 Memory Read 或 者 Memory Write 
TLP， 它 首先 把 TLP Header 中 的 地 址 跟 它 自己 Configuration 当 中 的 所 有 
BAR 寄 存 器 比较 ， 如 果 TLP Header 当 中 的 地 址 落 在 这 些 BAR 的 地 址 空 
间 ， 那 么 它 就 认为 该 TLP 是 发 给 它 的， 于 是 接收 该 TLP (这 个 过 程 与 


Endpoint 的 处 理 方 式 一 样 ) ; 如 果 不 是 ， 则 看 这 个 地 址 是 否 落 在 其 下 游 
设备 的 地 址 范围 内 (是 否 在 Memory Base 和 Memory Limit 之 间 ) ， 如 果 
是 ， 说 明 该 TLP 是 发 给 它 下 游 设 备 的 ， 因 此 它 要 完成 路 由 转发 ， 如 果 地 
址 不 落 在 下 游 设备 的 地 方 范 围 内 ， 说 明 该 TLP 不 是 发 给 它 下 游 设备 的 ， 
则 不 接受 该 TLP， 如 图 5-42 所 示 。 


刚才 的 描述 是 针对 TLP 从 Upstream 流 到 Downstream 的 路 由 。 如 果 
TLP 从 下 游 往 上 走 呢 ? 


E 〈 某 端口 ) 首先 把 TLP Header 中 的 地 址 跟 它 自己 Configuration 当 
中 的 所 有 BAR 寄 存 器 比较 ， 如 果 TLP Header 当 中 的 地 址 落 在 这 些 BAR 
的 地 址 空间 ， 那 么 它 就 认为 该 TLP 是 发 给 它 的 ， 于 是 接收 该 TLP (跟前 
面 描述 一 样 ) ; 如 果 不 是 ， 那 就 看 这 个 地 址 是 否 落 在 其 下 游 设 备 的 地 
址 范围 内 (是 否 在 Memory Base 和 Memory Limit 之 间 ) 。 如 果 是 ， 这 个 
时 候 不 是 接受 ， 而 是 拒绝 : 相反， 如 果 地 址 不 落 在 下 游 设 备 的 地 址 苑 
围 内 ，Switch 则 把 该 TLP 传 上 去 。 


Type 1 Header 
31 15 0 


Device ID Vendor ID 00h 
Class Code Cide 08h 
Line Size 
BIST Header Latency C oi oCh 
Type Timer Line Size 


Secondary |Subordinate| Secondary | Primary 
Lat Timer Bus # Bus # Bus # 
Secondary IO IO 
Status Limit Base 
Non-prefetchable Non-prefetchable 
Memory Limit Memory Base 
Prefetchable Prefetchable 
Memory Limit 


Prefetchable Memory Limit 
Upper 32 Bits 


IO Limit IO Base 
Upper 16Bits Upper 16Bits 


Reserved 


Expansion ROM Base Address 
Bridge Interrupt Interrupt 
Control Pin Line 


图 5-42 ”Switch 如 何 分 配 地 址 路 由 


2.ID 路 由 


在 一 个 PCIe 拓 扑 结构 中 ， 由 ID=Bus Number+Device 
Number+Function Number (BDF) 能 唯一 找到 某 个 设备 的 某 个 功能 。 这 
种 按 设备 ID 号 来 寻 址 的 方式 叫 作 ID 路 由 。Configuration TLP 和 
Completion TLP (CpID) 按 ID 路 由 寻 址 ，Message 在 某 些 情况 下 也 是 ID 
路 由 。 


使 用 ID 路 由 的 TLP， 其 TLP Header 中 含有 BDF 信 息 ( 见 图 5-43) ° 


当 一 个 Endpoint 收 到 一 个 这 样 的 TLP， 它 用 自己 的 ID 和 收 到 TLP 
Header 中 的 BDF 比 较 ， 如 果 是 给 自己 的 ， 束 收 下 TLP， 天 则 就 拒绝 。 


如 果 是 一 个 Switch 收 到 这 样 的 一 个 TLP， 怎 么 处 理 ? 我 们 再 回头 看 
看 Switch 的 Configuration Header ( 见 图 5-44) ° 


3DW Header ID 路 由 


注意 : 
1Header) ， 而 是 Switch 的 每 个 Port 都 有 一 个 Configuration 空 间 (Type 
1Header) 。 


+0 +1 +2 +3 
7|e|s|4|s|2|1]o|7]e|s|4|]|2|1]o 7|e|s |a|s|2]1]o|]|e|s|a|s]|2]|1]o 
Atl_ |T T|E 
Ri TC R | & R HÍDP Attr | AT Length 
Bytes 4-7 取决 于 Type 5X 
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图 5-43 ”使 用 ID 路 由 的 3DW TLP Header 


不 是 一 个 Switch 对 应 一 个 Configuration 空 间 (Type 


Type 1 Header 
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Class Code aed 08h 

Line Size 

Header |Latency | Cache 
"HE [iae och 


Base Address 0 (BARO ) 10h 
Base Address 1 (BARI | 


Seconda 4 ubordinate| Secondary i 
: 18h 
Lat Timer [—Bus # Bus # : 
Secondary IO IO 
Status Limit Base 


Non-prefetchable Non-prefetchable 
Memory Limit Memory Base 
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Prefetchable Memory Limit 
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Expansion ROM Base Address 38h 
Bridge Interrupt | Interrupt 3Ch 
Control Pin Line 


图 5-44 Type 1Header 


ANATA: Subordinate Bus Number ` Secondary Bus Number 和 
Primary Bus Number， 如 图 5-45 所 示 。 


Primary Bus 
Bus 5 : 


Secondary Bus Switch 
Pri=5 
Sec — 6 


Sub = 


Function 0 


ua 


Bus 7 Bus 9 
Device 0 Device 0 


图 5-45 Primary Bus 和 Secondary Bus 的 概念 


对 一 个 Switch 来 说 ， 每 个 Port 靠 近 RC (EW) 的 那 根 Bus 叫 作 
Primary Bus, umbe 写 在 其 Configuration Header 中 的 Primary Bus 
NumberzZiffa&; 每 个 Port 下 面 的 那 根 Bus 叫 作 Secondary Bus, Æ Number 

写 在 其 E Configuration Header 中 的 Secondary Bus Number gF; XJ EWF 
w, Subordinate Bus 是 其 下 游 所 有 端口 连接 的 Bus 编 号 最 大 的 那 根 
Bus, Subordinate Bus Number 写 在 每 个 Port 的 Configuration Header 中 的 
Subordinate Bus Number? {FKF ° 


当 一 个 Switch 收 到 一 个 基于 ID 寻 址 的 TLP， 首 先 检查 TLP 中 的 BDF 
是 否 与 目 己 的 ID 匹配 ， 如 匹配 ， 说 明 该 TLP 是 给 目 己 的 ， 收 下 ; 否则 ， 
检查 该 TLP 中 的 Bus Number 十 否 落 在 Secondary Bus Number 和 


Function 0 


Subordinate Bus Number 之 间 。 如 果 是 ， 说 明 该 TLP 是 发 给 其 下 游 设 备 
的 ， 然 后 转发 到 对 应 的 下 游 端 口 ， 如 果 是 其 他 情况 ， 则 拒绝 这 些 TLP 。 


3. 隐 式 路 由 

只 有 Message TLP 才 支持 隐 式 路 由 。 在 PCIe 总 线 中 ， 有 些 Message 
是 与 RC 通 信 的 ，RC 是 该 TLP 的 发 送 者 或 者 接收 者 ， 因 此 没有 必要 明明 
日 日 地 指定 地 址 或 者 ID， 这 种 路 由 方式 称 为 隐 式 路 由 。Message TLP 还 
文 持 地 址 路 由 和 ID 路 由 ， 但 以 隐 式 路 由 为 主 。 


Message TLP 的 Header 总 是 4DW， 如 图 5-47 所 示 。 


Type 1 Header 


3l 15 0 


Cache 
Class Cod . i 
i CER 
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图 5-46 ”Switch 如 何 进行 ID 路 由 
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Fmt Type : Atl [TH T| E| Att | AT 


Bytes 8-11 ( 跟 Message code 相关 ) 
Bytes 12-15 ( 跟 Message code 相关 ) 


[5-47 Message TLPH'JHeader 
Type 字段 ， 低 3 位 ， 由 rr 表示， 指明 该 Message 的 路 由 方式 ， 具 体 
如 图 5-48 所 示 。 
Message Routing Subfield R[2:0] 


* iub mplici.- Route.to he Root Complex, 
* 001b = Route by Address (bytes 8-15 of header contain address) 
* 010b = Route by ID (bytes 8-9 of header contain ID) 


* Jib. unplicit -Broadcast doy nstream 
* AUUb.z plici Local terminate aL .LecelyeL 
* Ab implicit Gather s route tothe Root Complex, 
* 110b - 111b = Reserved: terminate at receiver 

图 5-48 ”Type 域 低 3 位 决定 了 Message TLP 路 由 方式 


当 一 个 Endpoint 收 到 一 个 Message TLP， 检 查 TLP Header， 如 果 是 
RC 的 广播 Message (011b) 或 者 该 Message 终 结 于 它 (100b) ， 它 就 接 
^t TA Message ^ 


当 一 个 Switch 收 到 一 个 Message TLP， 检 查 TLP Header， 如 果 是 RC 
的 广播 Message (011b) ， 则 往 它 每 个 下 游 端 口 复 制 该 Message 然 后 转 
发 。 如 果 该 Message 终 结 于 它 (100b) ， 则 接受 该 TLP。 如 果 下 游 端口 
收 到 发 给 RC 的 Message， 则 往 上 游 端 口 转发 。 


上 面 说 的 是 Message 使 用 隐 式 路 由 的 情况 。 如 果 是 地 址 路 由 或 者 ID 
路 由 ，Message TLP 的 路 由 跟 其 他 的 TLP 一 样 ， 不 再 警 述 。 


5.8 数据 链 路 层 


前 面 看 到， 一 个 TLP 源 于 事务 层 ， 终 于 事务 屋 。 但 TLP 不 是 从 发 送 
端 一 步 就 跑 到 接收 端 ， 它 经 由 发 送 端的 数据 链 路 层 和 物理 层 ， 然 后 是 
接收 端的 物理 层 和 数据 链 路 层 ， 最 终 完 成 TLP 的 发 送 和 接收 。 


数据 链 路 层 位 于 事务 层 的 下 一 层 ， 理 所 当然 为 事务 层 服务 。 那 
么 ， 数 据 链 路 层 在 TLP 传 输 过 程 中 起 了 什么 作用 呢 ? 


发 送 端 : 数据 链 路 层 接收 上 层 传 来 的 TLP， 它 给 每 个 TLP 加 上 
Sequence Number (序列 号 ， 下 文 都 用 “序列 号 ”来 阐述 ) 和 LCRC (Link 
CRC) ， 然 后 转交 给 物理 层 。 


Bali. 数据 链 路 层 接 收 物理 层 传 来 的 TLP， 检 测 CRC 和 序列 
号 ， 如 果 有 问题 ， 会 拒绝 接收 该 TLP， 即 不 会 传 到 它 的 事务 层 ， 并 且 通 
知 发 送 端 重 传 ， 如 果 该 TLP 没 有 问题 ， 数 据 链 路 层 则 去 除 TLP 中 的 序列 
号 和 LCRC， 交 由 它 的 事务 层 ， 并 通知 发 送 端 TLP 正 确 接收 。 


从 上 面 的 朱 述 可 以 看 出 ， 数 据 链 路 层 保证 了 TLP 在 数据 总 线 上 的 正 
单传 输 ， 并 使 用 了 握手 协 议 (Ack/Nak) 和 重 传 (Retry) 机 制 来 保证 数 
据 传 输 的 一 致 性 和 完整 性 


数据 链 路 层 的 作用 ， 除 了 保证 TLP 数 据 包 的 正确 传输 ， 还 包括 TLP 
流量 控制 和 电源 管理 等 功能 。 数 据 链 路 层 借 助 DLLP 来 完成 这 些 功 能 
如 图 5-49 所 示 。 

DLLP (Data Link Layer Packet， 数 据 链 路 层 的 数据 包 ) 源 于 发 送 


端的 数据 链 路 层 ， 终 于 接收 端的 数据 链 路 层 ， 因 此 ， 处 于 高 层 的 事务 
层 是 感知 不 到 它 的 存在 的 。 
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图 5-49 数据 链 路 层 在 协议 栈 中 的 位 置 和 作用 


发 送 端 : 数据 链 路 层 生 成 DLLP， 交 由 物理 层 ， 物 理 层 加 起 始 
(SDP) 和 结束 标志 (GEN 1/2 加 END，GEN3 则 没有 ) ， 然 后 物理 传 
输 到 对 方 。 


接收 端 : 物理 层 对 DLLP 拘 头 去 尾 ， 交 由 数据 链 路 层 ， 数 据 链 路 层 
对 DLLP 进 行 校 验 ， 不 管 正 确 与 否 ，DLLP 都 终于 这 层 。 


与 事务 层 TLP 传 输 不 同 ， 效 据 链 路 层 只 处 理 端 到 问 的 数据 传输 。 一 
个 TLP， 可 以 翻 山越 岭 《经 过 若干 个 Switch) ， 从 一 个 设备 传输 到 相隔 
很 远 的 设备 。 但 DLLP 的 传输 ， 仅 限于 相 邻 的 两 个 端口 。 因 此 ，DLLP 
中 不 需要 包含 路 由 信息 ， 即 不 需要 告诉 我 这 个 DLLP 是 哪个 设备 发 起 
的 ， 以 及 要 发 送 给 哪个 目标 设备 。 


如 图 5-50 所 示 ， 一 个 TLP 可 以 从 RC 传 到 EP1， 但 DLLP 的 传输 只 限 
FRC Switch E JfPort, Switch] E-Jif£Port 5 FifPort, LAN Switch P 1f 
Port 与 EP1 (或 者 EP2) ° 


图 5-50 


Switch 


数据 链 路 层 主 要 有 四 大 类 型 DLLP: 


:用 以 确保 TLP 传 输 完 整 性 的 DLLP: ACK/NAK; 


: 流 控 相关 的 DLLP; 


:电源 管理 相关 的 DLLP; 


:厂家 自 定义 DLLP。 


具体 如 表 5-7 所 示 。 


DLLP 类 型 
ACK (确认 TLP 收 到 无 误 ) 
NAK (TLP 有 问题 ， 需 要 重 发 ) 
PM Enter L1 
PM Enter L2L3 
PM Active State Request L1 


表 5-7 DLLP 类 型 


简单 的 PCIe 系 统 示例 


目的 
用 以 保证 TLP 传输 的 完整 性 
用 以 保证 TLP 传输 的 完整 性 
电源 管理 
电源 管理 
电源 管理 


DLLP 类 型 目的 

PM Request Ack 电源 管理 
InitFC1 P TLP 的 流 控 
InitFC1_NP TLP 的 流 控 
InitFCl Cpl TLP 的 流 控 
InitFC2 P TLP 的 流 控 
InitFC2 NP TLP 的 流 控 
InitFC2 Cpl TLP 的 流 控 
UpdateFC P TLP 的 流 控 
UpdateFC_NP TLP 的 流 控 
UpdateFC Cpl TLP 的 流 控 
VendorSpecific 厂家 自 定义 
保留 的 其 他 保留 


DLLP 大 小 为 6B (物理 层 上 加 上 头 尾 ， 传 输 的 是 8B) ， 格 式 如 图 5- 
51 所 示 。 
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DLLP Type (Fields Vary With DLLP Type) 


Byte 0 
Byte 4 


16 bit CRC 
图 5-51 6B DLLP 格 式 
不 同类 型 的 DLLP， 格 式 相 同 ， 内 容 不 一 样 。 
1.ACK/NAK 协 议 


首先 ， 我 们 来 看 ACK/NAK DLLP， 其 格式 如 下 ( 见 图 5-52) ° 


+0 +1 +2 +3 
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0000 0000 - Ack 


图 5-52  ACK/NAK DLLP 格 式 


数据 链 路 层 通 过 ACK/NAK 协 议 来 保证 每 个 TLP 的 正确 传输 ， 其 基 
本 原理 为 : TLP 发 送 端 的 数据 链 路 层 为 每 个 TLP 加 上 序列 号 和 LCRC， 
在 该 TLP 被 接收 端正 确 收 到 之 前 ， 它 会 一 直 保 持 在 一 个 叫 Replay Buffer 
的 接口 里 面 。TLP 接 收 端的 数据 链 路 层 接收 到 该 TLP 后 ， 做 CRC 校 验 和 
序列 号 检查 ， 如 果 没 有 问题 ，TLP 接 收 端 (可 能 ) 会 生成 和 发 送 ACK 
DLLP，TLP 发 送 方 接 收 到 ACK 后 ， 知 道 TLP 被 正确 接收 ， 因 此 它 会 把 
相关 的 TLP 从 Replay Buffer 中 清除 ， 如 果 TLP 接 收 方 检测 到 TLP 有 错 
误 ， 则 会 生成 和 发 送 NAK DLLP，TLP 发 送 方 接 收 到 NAK 后 ， 知 道 有 
TLP 传 输出 错 ， 会 重新 发 送 Replay Buffer 相 关 的 TLP 给 对 方 。TLP 传 输 
出 错 往往 是 瞬 态 的 ， 重 传 基本 能 保证 TLP 传 输 正确 。TLP 接 收 方 只 有 收 
到 正确 的 TLP 才 会 去 掉 序列 号 和 LCRC， 并 把 TLP 交 给 它 的 事务 层 。 


前 面 提 到 ， 没 有 收 到 ACK 的 TLP， 发 送 端的 链 路 层 都 会 把 它 UH 
括 序 列 号 和 LCRC) 放 在 Replay Buffer 中 。 在 接收 端 ， 当 成 功 收 到 一 个 
TLP 后 ， 它 的 序列 号 加 1， 设 置 为 下 一 个 期 望 接 收 到 的 TLP 序 列 号 。 


假设 当前 发 送 端 Replay Buffer 中 有 序列 号 分 别 为 10、11、12、13 的 
4 个 TLP， 即 这 些 TLP 发 送出 去 了 ， 但 还 没有 得 到 响应 。 


假设 接收 端 上 一 个 成 功 接收 到 的 TLP 序 列 号 为 11， 期 望 下 个 接收 到 
的 TLP 序 列 号 为 12。 这 时 ， 接 收 端 接 收 到 一 个 TLP， 首 先 ， 它 会 对 该 
TLP 做 LCRC 校 验 : 


(1) 校 验 失败 


TLP 接 收 端 会 发 送 一 个 NAK， 其 中 AckNak_SEQ_NUM 设 为 11。 
TLP 发 送 端 接收 到 该 NAK 后 ， 知 道 11 和 它 之 前 的 TLP (这 里 是 TLP 10) 
被 成 功 接收 ， 因 此 TLP 10 和 TLP 11 会 从 Replay Buffer 清 掉 (不 需要 重 
发 ) 。 同 时 ， 它 知道 12 和 后 面 的 TLP (这 里 是 TLP 13) 没有 被 成 功 接 
收 ， 因 此 它们 会 重 发 。 


(2) 校 验 成 功 
CRC 没 有 问题 ， 接 下 来 就 检查 TLP 的 序列 号 了 。 这 里 有 三 种 情况 : 
-TLP 接 收 闪 发 现 收 到 的 TLP 序 列 号 为 12， 与 预期 相符 。TLP 接 收 闪 
可 能 需要 发 一 个 ACK， 也 可 能 不 需要 发 ACK。 为 什么 这 么 说 ? 为 减少 


数据 链 路 层 DLLP 的 传输 ， 可 能 设置 正确 接收 到 耕 干 个 TLP 后 ， 才 会 返 
回 一 个 ACK， 并 非 每 成 功 接 收 一 个 TLP， 就 返回 一 个 ACK。 假 设 这 个 


时 候 需 要 返回 ACK， 则 设 AckNak _ SEQ_NUM 为 12。TLP 发 送 端 接收 到 
该 ACK， 知 道 TLP 12 和 它 之 前 所 有 的 TLP 都 被 成 功 接收 ， 因 此 TLP 
10、TLP 11 和 TLP 12 会 从 Replay Buffer? fi » 


.ITLP 接 收 端 发 现 收 到 的 TLP 序 列 号 为 13， 与 预期 不 符 (预期 为 TLP 
12) 。TLP 接 收 端 希 望 接收 到 的 TLP 为 12， 这 个 时 候 收 到 的 却 是 13， 说 
明 TLP 12 在 半路 丢 了 ， 发 生 丢 包 。 这 个 时 候 ， 接 收 端 会 发 一 个 NAK,， 
其 中 AckNak_SEQ_NUM 设 为 11 ( 即 上 一 个 成 功 被 接收 的 TLP 序 列 
号 ) 。TLP 发 送 端 接收 到 该 DLLP 后 ， 知 道 TLP 11 和 它 之 前 所 有 的 TLP 
都 被 成 功 接收 ， 因 此 TLP 10 和 TLP 11 会 从 Replay Buffer 清 掉 ， 并 重 发 
TLP 12 和 它 后 面 的 TLP (这 里 是 TLP 13) e 


:TLP 接 收 端 发 现 收 到 的 TLP 序 列 号 为 10， 与 预期 不 符 (预期 为 TLP 
12) 。TLP 上 次 正确 接收 到 的 是 TLP 11， 这 次 又 收 到 一 个 序列 号 比 它 小 
的 TLP， 为 什么 会 这 样 ? 原因 是 在 TLP 发 送 端 ， 一 个 TLP 在 一 定时 间 内 
没有 收 到 ACK， 它 会 自动 重 发 所 有 Hold 在 Replay Buffer 中 的 TLP。 由 于 
发 送 端的 这 个 超时 重 发 机 制 ， 导 致 一 个 TLP 会 被 接收 端 接 收 到 两 次 或 者 
更 多 次 〈 如 果 接 收 端 一 直 不 能 及 时 响应 ) 。TLP 接 收 端 如 果 收 到 重复 的 
TLP 包 ， 它 会 默默 扔 掉 这 些 重复 的 TLP， 并 发 送 ACK， 其 中 的 
AckNak_SEQ_NUM 设 为 11。TLP 发 送 端 接收 到 该 DLLP 后 ， 知 道 TLP 11 
和 它 d 的 TLP 都 被 成 功 接收 ， 因 此 TLP 10 和 TLP 114 A Replay 
Buffer 清 掉 。 


图 5-53 是 数据 链 路 层 内 部 框图 ， 从 中 我 们 可 以 看 到 ACK/NAK 是 怎 
样 实现 的 。 


来 自 事务 层 发 往事 务 层 


图 5-53 ”数据 链 路 层 内 部 框图 


数据 链 路 层 通 过 ACK/NAK 协 议和 TLP 重 传 机 制 ， 保 障 了 TLP 传 输 
的 数据 完整 性 。 


问题 来 了 ， 每 个 DLLP 在 接收 端 也 需要 做 CRC 校 验 ， 那 如 果 DLLP 
出 错 了 怎么 办 ? 接收 端 会 丢弃 出 鲁 的 DLLP， 并 通过 下 一 个 成 功 的 
DLLP 更 新 之 前 丢失 的 信息 。 读 者 可 根据 上 面 的 例子 自行 分 析 。 
2.TLP 流 控 (流量 控制 ，Flow Control) 


我 们 再 看 看 跟 流 控 相 关 的 DLLP， 其 格式 如 图 5-54 所 示 。 
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图 5-54” 流 控 DLLP 格 式 


我 们 不 打算 对 每 个 流 控 DLLP 展 开 解 释 ， 这 里 只 简单 说 说 TLP 流 挥 
机 制 。 


TLP 的 发 送 端 不 能 随便 向 对 方 发 送 TLP， 因 为 接收 端 处 理 TLP 的 速 
度 可 能 赶不上 发 送 TLP 的 速度 。 接 收 端 如 有 果 没 有 足够 空间 接受 该 TLP 的 
话 ， 束 会 拒绝 该 TLP， 发 送 剖 必须 重复 发 送 该 TLP 直 到 对 方 接受 ， 这 在 
一 定 程 度 上 影响 了 通信 有 的 效率 。PCIe 有 一 套 流 控 机 制 ， 来 保证 TLP 的 发 
送 和 接收 是 高 效 的 。 


TLP 流 控 基 于 Credit。 每 个 TLP 都 有 一 定 大 小 ， 发 送 者 在 发 送 前 ， 
先 看 看 对 方 是 否 有 足够 的 空间 来 接纳 该 TLP， 如 果 有 ， 则 发 送 过 去 ， 否 
则 就 Hold 在 那里 ， 直 到 对 方 有 足够 的 空间 再 发 。 那 发 送 者 怎样 才能 知 
道 对 方 有 多 少 空 间 呢 ?PCIe 使 用 流 控 DLLP 来 告知 。 接 收 端 会 时 不 时 通 
过 DLLP 来 告诉 对 方 我 有 多 少 TLP 接 收 空间 ， 然 后 发 送 端 依据 此 信息 决 
定 是 不 是 生成 TLP 并 发 送 过 去 ， 如 图 5-55 所 示 。 


TLP 发 送 者 TLP 接收 者 
流 控 DLLP 
图 5-55 ”TLP 接 收 者 通过 流 控 DLLP 告 知 发 送 者 可 用 TLP 接 收 空间 
需要 注意 的 是 ， 这 里 的 流 控 是 针对 TLP 传 输 而 言 。DLLP 的 传输 是 
不 需要 流 探 的， 因为 每 个 DLLP 的 大 小 只 有 六 个 字 节 ， 跟 TLP 相 比 非 常 


迷你 。 如 果 DLLP 需 要 流 控 ， 那 就 麻烦 了 。TLP 的 流 控 是 通过 DLLP 来 实 
现 的 ， 如 果 DLLP 还 需要 流 控 ， 那 又 有 谁 来 帮忙 实现 呢 ? 


3. 电 源 管理 
最 后 是 跟 电 源 管理 相关 的 DLLP ( 见 图 5-56) ° 


+0 


+l +2 +3 
7|5|s|4|3|: 1|。 ?|e|s|4|s|2]|1]o 7|e|s|4|s]2 i |o 7|6|5|4|3|: 
Byte 0 Reserved 


图 5-56 ”电源 管理 DLLP 格 式 


关于 电源 管理 ， 请 查看 第 8 章 ， 在 这 里 不 做 解释 。 


59 ”物理 层 


物理 层 是 整个 PCIe 协 议 层 的 最 辰 层 ， 用 来 跑腿 的 。 无 论 是 TLP 还 是 
DLLP， 到 最 后 都 需要 物理 层 来 进行 实 实在 在 的 物理 信号 传输 。 因 此 ， 
有 必要 深入 基层 ， 了 解 一 下 物理 层 在 做 什么 。 


物理 层 由 电气 模块 和 逻辑 模块 组 成 电气 模块 方面 ， 我 们 知道 
PCIe 走 采用 串 行 总 线 传 葵 数据 ， 使 用 的 是 兰 分 信号 ， 即 用 两 根 信和 号 线 
上 的 电 乎 老 表 示 0 或 1。 与 单 闪 信 号 传输 相 比 ， 老 分 信号 抗 干 扰 能 力 
强 ， 能 提供 更 宽 的 带宽 〈 跑 得 更 快 ) 。 打 个 比方 ， 假 设 用 两 个 信号 线 
上 电 平 鞭 表 示 0 和 1， 具 体 来 讲 ， 有 莽 值 大 于 0， 表 示 1; 老 值 小 于 0， 表 示 
0。 如 果 传 输 过 程 中 存在 干扰 ， 两 个 线 上 加 了 近乎 同样 大 小 的 干扰 电 
平 ， 两 者 相 减 ， 老 值 几乎 不 变 ， 并 不 会 影响 信号 传输 。 但 对 单 端 信号 
传输 来 说 ， 就 很 容易 受 干扰 ， 比 如 0~1V 表 示 0，1~-3V 表 示 1， 一 个 本 
来 是 0.8V 的 电压 ， 加 入 干扰 ， 变 成 1.5V， 相 当 于 0 变 成 1， 数 据 就 出 错 
了 “。 抗 干扰 能 力 强 ， 因 而 可 以 用 更 快 的 速度 进行 数据 传输 ， 从 而 提供 
更 宽 的 带 视 《关于 PCIe 速 度 ， 可 参看 5.1 节 ) 。 

天 于 电气 模块 更 多 详细 内 容 ， 可 以 去 读 PCIe 规 范 。 对 于 SSD 开 发 人 
员 (尤其 是 固件 开发 者 ) 来 说 ， 我 觉得 记 住 “ 串 行 总 线 ， 差 分 信号 ”就 
可 以 了 ，PCIe 的 快 是 因为 在 物理 传输 上 使 用 了 这 两 大 技术 。 


我 们 重点 看 看 物理 层 的 逻辑 模块 ， 如 图 5-57 所 示 。 


来 自 数据 链 路 层 的 数据 
数据 包 边 界 指示 


Throttle | N*g 
Tx 


pe Logical Ordered 
Buffer Token Idle Sets 
[本 1 Characters 


N*8 8 8 8 


Mux 多 路 选择 器 


N*8 H D/K# 


Byte Striping 


8b/10b 
转换 


K5-57 ”物理 层 中 发 送 端 逻 辑 子 模块 


.物理 层 从 数据 链 路 层 获 得 TLP 或 者 是 DLLP， 然 后 放 到 TxBnuffer 
H o 


.物理 层 给 TLP 或 者 DLLP 加 入 头 (Start code) 和 尾 (End code ` 
Gen 3 没有 尾巴 ) ; 给 每 个 TLP 或 者 DLLP 加 上 边界 符号 ， 这 样 接收 端 就 
能 把 TLP 或 者 DLLP 区 分 开 。 


:第 一 节 提 到 ，PCIe 链 路 上 可 能 有 若干 个 Lane。 在 物理 层 ，TLP 或 
者 DLLP 数 据 会 分 派 到 每 个 Lane 上 独立 传输 。 这 个 过 程 叫 Byte 
Stripping， 类 似 于 串 并 转换 。 


.数据 进入 每 条 Lane 后 ， 分 别 加 串扰 (Scramble) ， 目 的 是 减少 电 
BFH (EMI) ， 手 段 是 让 数据 与 随机 数据 进行 异 或 操作 ， 输 出 伪 随 机 
数据 ， 然 后 再 发 送出 去 。 

.加 扰 后 的 数据 进行 810 编 码 (Gen3 是 128/130 编 码 ) 。8/10 编 码 是 
IBM 的 专利 ， 目 的 主要 有 : 让 数据 流 中 的 0 和 1 个 数 相 当 ， 保 持 直 流 平 
衡 ， 舱 入 时 钟 信 息 ，PCIe 不 需要 专门 的 时 钟 进行 信号 传输 。 

.最 后 进行 并 串 转 换 ， 发 送 到 串 行 物理 总 线 上 去 。 


Bell m 32 ECC Ed 5-58 rz. ° 


发 送 到 数据 链 路 层 
控制 信号 


Control 


错误 
检测 


Rx Clk 
接收 时 钟 
< 


< p 
Lane 0 Lane 1, ... N-1 Lane N 


图 5-58 ”物理 层 中 接收 端 逻 辑 子 模块 
接收 端 送 回 操作 ， 不 再 性 述 。 


PCIe 的 三 屋 ， 从 上 到 下 ， 依 次 为 事务 层 、 数 据 链 路 层 和 物理 层 。 
每 层 都 有 自己 的 数据 包 定义 ， 事务 层 产 生 TLP， 经 过 数据 链 路 层 和 物理 


层 传 输 给 接收 方 ， 数 据 链 路 层 产生 DLLP， 经 过 物理 层 传输 到 对 方 ， 物 
理 屋 ， 不 仪 仅 为 上 层 TLP 和 DLLP 做 巡 衣 ， 其 实 它 也 有 目 己 的 数据 包 定 
义 ， 称 为 Ordered Sets， 人 简称 OS ° 


TLP 用 以 传输 应 用 层 或 者 命令 层 (事务 层 的 顶头 上 司 ) 数据 ， 
DLLP 用 以 ACK/NAK、 流 挖 和 电源 管理 等 ，OS 的 功能 是 物理 层 用 以 管 
理 链 路 的 ， 比 如 链 路 训练 (LinkTraining) 、 改 变 链 路 电源 状态 等 。 
5-8 是 PCIe 中 OS 列表 。 


表 5-8 Ordered Sets 列 表 


Ordered Sets 说 明 

TSIOS/TS20S Training Sequence， 用 以 链 路 初始 化 和 链 路 训练 等 

EIOS Electrical Idle， 使 PCIe 链 路 进入 空闲 状态 

FTSOS Fast Training Sequence, fii PCIe 链 路 从 低 功 耗 状 态 (L0s) 进入 正常 工作 状态 (L0) 
SOS (SKP OS) SKP OS， 用 于 时 钟 补 偿 


EIEOS Electrical Idle Exit, PCIe 链 路 退出 空闲 状态 


5.10 PCIe Reset 
PCIe 是 个 博大 精深 的 协议 ， 跟 Reset 相 关 的 术语 就 有 不 少 : Cold 


Reset ^ Warm Reset ^ Hot Reset ^ Conventional Reset ^ Function Level 
Reset ^ Fundamental Reset ` Non-Fundamental Reset ° 


要 想 完 全 理解 PCIe Reset, NLEXERIESQ, HEA- KERA H 
出 头绪 。 


1. 整 理 出 这 些 Reset 之 间 的 关系 
这 些 Reset 之 间 是 从 属 关 系 ， 总 线 规定 了 两 个 复位 方式 : 


Conventional Reset 和 Function 
Level Reset (FLR) 。 


If Conventional Reset 又 进一步 分 为 两 大 类 : Fundamental Reset 和 
Non-Fundamental Reset ° 


Fundamental Reset 方 式 包 括 Cold 和 Warm Reset 方 式 ， 可 以 用 PCIe 将 
设备 中 的 绝 大 多 数 内 部 寄存 器 和 内 部 状态 都 恢复 成 初始 值 。 


而 Non-Fundamental Reset 方 式 为 Hot Reset Ù TÑ ° 
看 看 表 5-9， 有 没有 感觉 好 一 点 ? 


表 5-9  PCle Reset 分 类 


Fundamental Reset Cold Reset 和 Warm Reset 
Conventional Reset 
Non-Fundamental Reset Hot Reset 


Function Level Reset | 
2. 明 日 每 种 Reset 的 功能 、 实 现 方式 及 对 设备 的 影响 


Fundamental Reset: 由 硬件 控制 ， 会 重启 整个 设备 ， 包 括 : 重新 初 
台 化 所 有 的 State Machine、 所 有 的 人 硬件 逻辑 、Port State 和 Configuration 
Register ° 


当然 ， 也 有 Fundamental Reset 搞 不 定 的 情况 ， 就 是 某 些 Register 里 
属性 为 "Sticky” 的 Field， 跟 备 蛋 一 样 坚 强 ， 任 你 怎么 Reset， 我 目 译 然 不 
动 。 


这 些 Field 在 Debug 的 时 候 非 常 有 用 ， 特 别 是 那些 需要 Reset Link 的 
情况 ， 比 如 在 Link Reset 以 后 还 能 你 存 之 前 的 错误 状态 ， 这 对 FW 以 及 上 
层 应 用 来 说 是 很 有 用 的 。Fundamental Reset 一 般 发 生 在 整个 系统 Reset 
的 时 候 (比如 重启 电脑 ) ， 但 是 也 可 以 只 针对 某 个 设备 做 Fundamental 


Reset ° 


Fundamental Reset 有 两 种 : 

-Cold Reset: Power Off/On Device 和 的 Vcc (Vaux 一 直 在 ) ° 

"Warm Reset (Optional) : 保持 Vcc 的 情况 下 由 系统 触发 ， 比 如 改 
变 系 统 的 电源 管理 状态 可 能 会 触发 设备 的 Warm Reset，PCIe 协 议 没 有 
定义 具体 如 何 触 发 Warm Reset， 而 是 把 决定 权 交 给 系统 。 


有 两 种 方法 对 一 块 PCIe SSD 做 Fundamental Reset ° 


系统 这 边 给 设备 发 PERST# (PCIe Express Reset) 信号 ， 以 图 5-59 
所 示 为 例 。 


CPU 
ı FSB 


Root Complex 


PowerGood 信号 


ESTA 


IO fil as 42 on 


PERST# PERST# 信号 | Py (ICH) 


图 5-59 ”系统 上 电 产 生 PERST# 信 号 
1) 如 果 这 块 PCIe 设 备 支 持 PERST# 信 号 
个 系统 上 电 时 ， 主 电源 稳定 后 会 有 “Power Good” 信 和 号 ; 
:这 时 ICH 就 会 发 PERST# 信 号 给 下 面 挂 的 PCIe SSD; 


:如果 系 统 重启 ，Power Good 信 号 的 变化 会 触发 PERST# 的 Assert 和 
De-Assert， 束 可 以 实现 PCIe 设 备 的 Cold Reset; 


.如 果 系 统 可 以 提供 Power Good 信 号 以 外 的 方法 触发 PERST#， 就 可 
以 实现 Warm Reset，PERST# 信 号 会 发 送 给 所 有 PCIe 设 备 ， 设 备 可 以 选 
择 使 用 这 个 信号 ， 也 可 以 不 理 它 ; 

2) 如 果 这 块 PCIe 设 备 不 支持 PERST# 信 号 


:上 电 时 它 会 自动 进行 Fundamental Reset; 


.那些 特 立 独行 ， 选 择 不 理 皮 PERST# 信 和 号 的 设备 ， 必 须 能 自己 触发 
Fundamental Reset。 比 如 ， 侦 测 到 3.3V 后 了 驶 触发 Reset 〈 当 设备 发 现 供 
电 超 过 其 标准 电压 时 ， 必 须 触发 Reset) 。 


Hot Reset: 通过 Assert TS1 的 Symbol 5 的 Bit[0] 实 现 〈 见 图 5-60) ° 


TSI 


J S 
training control 


M 0-De-assert Hot Reset 
l=Assert Hot Reset 
. 0—De-assert Disable Link 
ve 
1=Assert Disable Link 
Rate ID 
. 0-De-assert Loopback 


training control 1-Assert Loopback 


6-15 ISID . 0-De-assert Disable Scrambing 


1-Assert Disable Scrambing 


0-De-assert Compliance Receive 


l=Assert Compliance Receive 
图 5-60 TS1 中 的 Hot Reset 控 制 位 
PCIe 设 备 收 到 两 个 连续 的 带 Hot Reset 的 TS1 后 ， 经 过 2ms 的 


timeout: 


LTSSMZ 对 过 Recovery 和 Hot Reset State, i5 最 终 停 在 Detect State 
(Link Training 的 初始 状态 ) ; 


:设备 所 有 的 State Machine、 人 硬件 逻 辑 、Port State 和 Configuration 
Register (Sticky bit 除 外 ) 全 部 回 到 初始 值 。 


当 PCIe SSD 出 现 问题 时 ， 可 以 通过 软件 触发 Hot Reset 使 其 恢复 ， 
具体 方法 如 下 : 


.对 RC 的 Bridge Control Register Bit[6]-Secondary Bus Reset 写 “1?; 


会 开始 发 带 Hot Reset 的 TS1: 


.2ms 后 设备 会 进入 Hot Reset 状 态 ， 此 时 LTSSM 的 状态 变化 是 
L0 RCVRY > HOTRESET; 


.将 RC 的 Bridge Control Register Bit[6]-Secondary Bus Reset E, ix 
备 的 LTSSM 的 状态 变化 HOTRESET > DETECT; 


重新 开始 LISSM 进 行 Link Training ° 


这 个 我 觉得 有 点 像 SATA 里 面 主 机 端 通 过 Trigger OOB 去 修复 Link 上 
的 一 些 问题 。 


软件 还 可 以 通过 设置 设备 的 Link Control Register. ( 链 路 控制 寄存 
ds) -Link disable bit 把 设备 disable 掉 〈 见 图 5-61) ° 


15 12 11 10 9 8 T7 6 5» 4 3 2 L "€ 


Link Disable 
图 5-61 PCIe 链 路 控制 寄存 器 
当 设 备 的 Link Disable bit 被 置 上 以 后 ， 会 进入 LITSSM Recovery 


State， 开 始 向 RC 发 送 带 Disable bit 的 TS1 (这 个 动作 只 能 由 EP 发 起 ，RC 
AIAX bitzreserveJ) ， 如 图 5-62 所 示 。 


TS1 


training control 


0=De-assert Hot Reset 
l=Assert Hot Reset 
0-De-assert Disable Link 
l=Assert Disable Link 


*— - 1—Assert Loopback 


6-15 TS ID 


0-De-assert Loopback 


0-De-assert Disable Scrambing 
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0-De-assert Compliance Receive 


l=Assert Compliance Receive 


[5-62 TS1 中 的 Disable Link 控 制 位 


RC 端 收 到 这 样 的 TS1 以 后 ， 其 物理 层 会 At ISLinkUp-O fri ^7 45 E 
路 层 ， 之 后 所 有 的 Lane 都 会 进入 Electrical Idle ° 2ms timeout), RC 
~ Detect mode， 但 是 设备 会 一 直 停 留 在 LTSSM 的 Disable 状 
态 ， 等 待 重出 江湖 的 那 一 天 。 


FLR (Function Level Reset) : PCIe Link 就 像 一 条 大 马路 ， 上 面 可 
以 跑 各 种 各 种 的 车 ， 这 些 千 承 是 不 同 的 Function。 如 果 某 个 Function 出 
了 问题 ， 当 然 可 以 通过 Reset 整 个 Link 的 方式 来 解决 ， 不 过 细 用 的 阿 采 
不 会 建议 采取 这 种 方法 ， 他 会 使 用 Function Level Reset， 哪 里 不 舒服 点 
哪里 。 并 不 是 所 有 的 设备 都 支持 FLR， 需 要 检查 Device Capabilities 
Register (设备 能 力 寄存 器 ) 的 Bit28 进 行 确认 。 


如 有 果 设 备 文 持 FLR， 那 么 软件 就 可 以 通过 Device Control Register 
(设备 控制 寄存 器 ) 的 Bit15 来 进行 Function Reset 了， ( 见 图 5-64) ° 


设备 能 力 寄存 需 
28 2726 25 1817 16 1514.121198 6543532 


Function-Level Reset Capability = 


图 5-63 ”设备 能 力 寄存 器 
设备 控制 寄存 器 
15 14 1211109 8754 3 2 1 0 
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图 5-64 AHER pun 


P B p NFunctionBJP] SPA zs, SFREE, BÆN TATR 
S I$; 


‘Sticky bits 


:HwInit 类 型 的 寄存 器 。 在 PCIe 设 备 中 ， 有 效 配置 寄存 器 的 属性 为 
HwInit， 这 些 寄 存 器 的 值 由 心 瞩 的 配置 引 脚 决定 ， 后 者 上 电 复 位 后 从 
EEPROM 中 获取 。Cold Reset 和 Warm Reset 可 以 复位 这 些 寄存 器 ， 然 后 
从 EEPROM 中 重新 获取 数据 ， 但 是 使 用 FLR 方 式 不 能 复位 这 些 寄存 
器 o 


Cold Reset 和 Warm Reset &'E f 175481 9 


一 些 特殊 的 配置 寄存 器 。 比 如 Captured Power ` ASPM Control ` 
Max_Payload_Size 或 者 Virtual Channel ° 


:FLR 丰 会 改变 设备 的 LTSSM 状 态 。 


FLR 的 时 间 : 协议 规定 一 个 Function 的 Reset 需 要 在 100ms 内 完成 。 
但 是 软件 在 启动 FLR 前 ， 要 注意 是 否 有 还 没完 成 的 CplID， 壳 到 这 种 情 
m. 要 么 等 这 些 CDID 完 成 再 开始 FLR 要 么 启动 FLR 以 后 等 100ms 以 后 
再 重新 初始 化 这 个 Function。 这 种 情况 如 果 不 处 理 好 ， 可 能 会 导致 Data 
Re 前 一 批 事 务 要 求 的 数据 因为 FLR 的 影 啊 被 误 传 给 了 后 一 
& e 


要 避免 这 种 情况 ， 阿 采 建 议 这 么 做 : 
.确保 其 他 软件 在 FLR 期 间 不 会 访问 这 个 Function; 


.把 Command Register ©, ibFunction BH CFA; 


A. 3 2 LO 


x [TIIII- 


f 


Transactions Pending 
图 5-65 ”设备 状态 寄存 器 


. 轮 循 Device Status Register. (设备 状态 寄存 器 ) 的 bit5 
(Transactions Pending) 直到 被 Clear (这 个 bit=1 代 表 还 有 未 完成 的 
CplD) ， 如 图 5-65 所 示 ， 或 者 等 待 到 Completion Timeout 的 时 间 ， 如 果 
Completion Timeout 没 有 被 Enable， 等 100ms; 


-初始 化 FLR 然 后 等 100ms; 

重新 配置 Function 并 Enable ° 

在 FLR 过 程 中 : 

.这 个 Function 对 外 不 能 被 使 用 ; 

:不 能 保留 之 前 的 任何 可 以 被 读 取 的 信息 (比如 内 部 的 Memory 需 要 
被 清 零 或 者 改写 ) ; 

:回复 要 求 FLR 的 Cfg Request， 并 开始 FLR:; 

:对 于 发 进来 的 TLP 可 以 回复 UC (Unexpected Completion) 或 者 直 

BRE 


FLR 应 该 在 100ms 之 内 完成 ， 但 是 其 后 的 初始 化 还 需要 花 一 些 时 
间 ， 在 初始 化 过 程 中 如 采 收 到 Cfg booth 可 以 回复 CRS 


(Configuration Retry Status) ° 
阿 采 总 结 了 Reset 民 出 时 的 那些 事 : 
.从 Reset 状 态 退 出 后 ， 必 须 在 20ms 内 开始 Link Training; 


-软件 需要 给 Link 充 分 的 时 间 完 成 Link Training 和 初始 化 ， 至 少 要 等 
上 100ms 才 能 开始 发 送 Cfg Request; 


.如 果 软 件 等 了 100ms 开 始 发 Cfg Request， 但 是 设备 还 没 初始 化 完 
成 ， 设 备 会 回复 CRS; 


:这 时 RC 可 以 选择 重 发 Cfg Request 或 者 上 报 CPU 说 设备 还 没准 备 
F, 


:设备 最 多 可 以 有 1s 时 间 (从 PCI 那 继承 来 的 ) ， 之 后 必须 能 够 正常 
工作 ， 否 则 System/RC 则 可 以 认为 设备 挂 了 。 


5.11 PCIe Max Payload Size 和 Max Read Request 
Size 

dfi 3B ]MAX, READ. REQUEST. _SIZE 和 
MAX. PAYLOAD SIZE 。 


这 两 部 分 都 在 Device Control Register (设备 控制 寄存 器 ) 里 ， 如 图 
5-66 所 示 ， 分 别 由 bit[14:12] 和 bit[7:5] 控 制 。 


I5 14. 12211 10 9 8 7 54 321 0 


Max Read Request Size Max Payload Size 


图 5-66 ”设备 控制 寄存 郁 


1.Maximum Payload Size 《简称 MPS ) 


控制 一 个 TLP 可 以 传输 的 最 大 数据 长 度 。 作 为 接收 方 ， 必 须 能 处 理 
跟 MPS 设 定 大 小 相同 的 TLP 数 据 包 ， 作 为 传输 方 ， 不 允许 创建 超过 MPS 
设 定 的 TLP 数 据 包 。 


PCIe 协 议 允 许 一 个 最 大 的 Payload 可 以 到 4KB， 但 是 规定 了 在 整个 
传输 路 径 上 的 所 有 设备 ， 都 必须 使 用 相同 的 MPS 设 置 ， 同 时 不 能 超过 
该 路 径 上 任何 一 个 设备 的 MPS 能 力 值 。 也 就 是 说 ，MPS Capability 高 的 
设备 要 迁就 低 的 设备 。 以 PCIe SSD 来 说 ， 播 到 一 块 老 掉 牙 的 主板 上 

(MPS 只 有 128Byte) ， 你 的 Payload Size 再 大 ， 也 是 没有 用 的 。 


系统 的 MPS 值 设置 是 在 上 电 以 后 的 设备 枚 举 配 置 阶段 完成 的 ， 以 
主板 上 的 PCIe RC 和 PCIe SSD 为 例 ， 它 们 都 在 Device Capability Register 
里 声明 自己 能 支持 的 各 种 MPS，OS 的 PCIe 驱 动 侦 测 到 他 们 各 自 的 能 
值 ， 然 后 挑 低 的 那个 设置 到 两 者 的 Device Control Register 中 。 


PCIe SSD H E BSJMPS capability 则 是 在 其 PCIe core 初 始 化 阶段 设置 


2.Maximum Read Request Size 


EMEK, OSBUPCIeJK z/ t5 m BO BLA 9 — 1 2 3XtMaximum Read 
Request Size， 用 于 控制 一 个 Memory Read 的 最 大 Size， 最 大 4KB (以 
128Byte 为 单位 ) 。 


Read Request Size 是 可 以 大 于 MPS 的 ， 比 如 给 一 个 MPS=128Byte 的 
PCIe SSD 发 一 个 512Byte 的 Read Request, PCIe SSD 可 以 通过 返回 4 个 
128Byte 的 Cpld， 或 者 8 个 64Byte 的 Cpld 来 完成 这 个 Request 的 响应 。OS 
层面 可 以 通过 控制 PCIe SSD 的 Maximum Read Request Size 参 数 ， 平 衡 
多 个 PCIe SSD 之 间 的 吞吐 量 ， 避 免 系统 带宽 〈 总 共 40 个 Lane) 被 某 些 
SSD 霸 占 。 


同时 ，Read Request Size 也 对 PCIe SSD 的 Performance 有 影响 ， 这 个 
Size 太 小 ， 意 味 着 同样 的 Data， 需 要 发 送 更 多 的 Request 去 获取 ， 而 Read 
Request 的 TLP 是 不 市 任何 Data Payload 的 。 


举例 来 说 ， 要 传 64KB 的 数据 ， 如 果 Read Request=128Byte， 则 需要 
512 个 Read TLP，512 个 TLP 的 开销 可 是 不 小 的 。 


为 了 提高 特别 是 大 Block Size Data 的 传输 效率 ， 可 以 尽量 把 Read 
Request Size 设 得 大 一 点 ， 用 更 少 的 次 数 传 递 更 多 的 数据 。 


5.12 PCIe SSD£/d iA 


PCIe SSD 最 早 是 Fusion-IO 推 出 来 的 ， 以 内 存 卡 的 形式 被 互联 网 公 
司 和 数据 中 心 广 泛 使 用 。 闪 存 卡 一 般 作为 数据 缓存 来 使 用 ， 如 果 要 在 
人 SSD， 闪 存 卡 的 形式 就 有 局 限 了 。 闪 存 卡 有 


. 揪 在 服务 器 主板 的 PCIe 插 槽 上 ， 数 量 有 限 。 

.通过 PCIe 揪 槽 供电 ， 单 卡 容 量 受到 限制 。 

-在 PCIe 插 模 上 ， 容 易 出 现 由 于 散热 不 良 导 致 宕 机 的 间 题 。 

:不 能 热 插 拔 。 如 果 发 现 PCIe 办 存 卡 有 故障 ， 必 须要 停止 服务 ， 关 
闭 服 务 器 ， 打 开机 箱 ， 拔 出 闪存 卡 。 这 对 有 成 百 上 千 台 服务 器 的 数据 
中 心 来 说 ， 管 理 成 本 非常 高 。 

所 以 ， 如 图 5-67 所 示 ，PCIe SSD 推 出 了 新 的 硬件 形式 SFF-8639， 


又 称 U.2。U.2PCIe SSD 类 似 于 传统 的 一 位 式 SATA、SAS 人 硬盘 ， 可 以 直 
接 从 服务 器 前 面板 热 插 拔 。 


图 5-67” 热 揪 拔 示意 图 (本 图 来 源 于 Oracle NVMe SSD 热 揪 拔 说 明 ) 


当 服 务 器 有 很 多 个 可 以 热 插 拔 的 U.2SSD 之 后 ， 存 储 密度 大 为 提 
升 ， 更 重要 的 是 ，U.2SSD 不 只 可 以 用 作 数 据 缓存 ， 关 键 数据 也 可 以 放 
在 其 中 。 通 过 多 个 U.2SSD 组 成 RAID 阵 列 ， 当 某 个 U.2SSD 故 障 之 后 ， 
可 以 通过 前 面板 显示 灯 确 定 故障 SSD 盘 位 ， 予 以 更 换 。 同 时 ， 不 会 造成 
服务 器 停止 服务 或 者 数据 丢失 。 


目前 有 很 多 服务 左 广 商都 发 布 了 有 很 多 U.2SSD 盘 位 的 服务 器 ， 有 
的 是 少数 U.2SSD 和 多 数 SATA HDD 混 合 ， 有 的 甚至 是 24 个 纯 U.2SSD 圾 
位 。 配 备 了 高 密度 SSD 的 服务 器 对 数据 中 心 来 说 ， 可 以 大 幅 减 少 传统 服 
务 器 的 数量 ， 因 为 很 多 企业 应 用 对 存储 容量 要 求 并 不 高 ， 传 统 机 械 硬 
盘 阵 列 的 容量 很 大 ， 却 处 于 浪费 状态 。 企 业 对 硬盘 市 宽 的 要 求 更 高 ， 
一 台 SSD 阵 列 服务 器 能 够 支持 的 用 户 数 是 HDD 阵 列 服务 右 的 好 几 信 ， 
功 耗 和 制冷 成 本 却 少 了 好 几 倍 。 目 前 ， 房 租 和 土地 成 本 越 来 越 高 ， 能 
够 在 有 限 的 数据 中 心 空间 中 为 大 量 用 户 提 供 服 务 ， 对 电信 、 视 频 网 
站 、 互 联网 公司 等 企业 来 说 非常 重要 。 所 以 可 以 预期 ， 随 着 内 存 价 格 
的 逐年 下 降 ， 配 备 SSD 阵 列 的 服务 器 会 越 来 越 普 及 。 


我 们 来 看 看 PCIe SSD 热 插 拔 的 技术 实现 。 传 统 SATA、SAS 人 硬盘 通 
过 HBA 和 主机 通信 ， 所 以 也 是 通过 HBA 来 管理 热 搬 拔 。 但 是 ，PCIe 
SSD 直 接连 到 CPU 的 PCIe 控 制 嚣 ， 热 插 拔 需要 驱动 直接 管理 。 根 据 
Memblaze 公 司 公 众 号 的 介绍 ， 一 般 热 揪 拔 PCIe SSD 需 要 几 方 面 的 支 
可 


.PCIe SSD: 一 方面 需要 硬件 支持 ， 避 人 免 SSD 在 插 盘 过 程 中 产生 电 
流 波 峰 导 致 器 件 损坏 另 一 方面 ， 控 制 器 要 能 自动 检测 到 拔 盘 操作 ， 
避免 数据 因 掉 电 而 丢失 。 


.服务 器 背 板 PCIe SSD 插 模 ， 需要 通过 服务 器 厂家 了 解 是 否 支 持 
U.2SSD 热 搬 拔 。 


LC TIMER QU SISSE 也 需要 咨 
YR AS d 家 来 确定 。 


PCIe SSD 驱 动 : 不 管 是 Linux 内 核 自 带 的 NVMe 驱 动 ， 还 是 厂家 提 
供 的 张 动 ， 都 需要 在 各 种 使 用 环境 中 做 过 大 量 热 插 拔 稳定 性 测试 ， 避 
免 在 实际 操作 中 因为 驱动 问题 导致 系统 前 溃 。 


3k tH PCIe SSD 的 基本 流程 如 下 : 


1) 配置 应 用 程序 ， 停 止 所 有 对 目标 SSD 的 访问 。 如 果 某 个 程序 打 
开 了 该 SSD 中 的 某 个 目 永 ， 也 需要 退出 ; 


2) umount 上 有 目标 SSD 上 的 所 有 文件 系统 


3) 有 些 SSD 厂 家 会 要 求 和 卸载 SSD 驱 动 程序 ， 从 系统 中 删除 已 注册 
的 块 设 备 和 disk:; 


4) HESSD ° 


5.13 SSD PCIe 链 路 性 能 损耗 分 析 
下 面 介 绍 PCIe SSD 在 PCIe 协 议 层 面 导 致 性 能 损耗 的 因素 。 
1.Encode 和 Decode 


这 个 就 是 我 们 通常 说 的 8/10 转 换 (Gen3 是 128/130， 但 是 道理 一 
TÉ) ， 简 单 来 说 就 是 对 数据 重新 编码 ， 从 而 保证 链 路 上 实际 传输 的 时 
候 “1” 和 “0” 的 总 体 比 例 相 当 ， 旦 不 要 过 多 连续 的 “1” 或 “0”。 同 时 把 时 钟 
信息 众 入 数据 流 ， 避 免 高 频 时 钟 信号 产生 EMI 的 问题 。Gen1 或 者 
Gen2， 正 常 的 1 个 Byte 数 据 ， 经 过 8bit/10bit 转 换 在 实际 物理 链 路 上 传输 
的 时 候 就 变 成 了 10bit， 也 就 是 一 个 Symbol，8bit/10bit 转 换 会 带 来 20% 
HE 员 耗 。 对 Gen3， 由 于 是 128/130 编 码 ， 这 部 分 性 能 损耗 可 以 名 
lx o 


2.TLP Packet Overhead 


PCIe SSD 通 过 MemWr 或 者 CplD 这 两 种 TLP 与 主机 传输 数据 ， 从 图 
5-68 中 可 以 看 出 ， 整 个 TLP 里 Payload 是 有 效 的 传输 Data， 而 PCIe 协 议 在 
外 面 穿 了 一 层 又 一 层 的 衣服 ，Transaction Layer (事务 层 或 传输 层 ) ` 
Link Layer ( 链 路 层 ) 和 PHY (物理 层 ) 分 别 在 数据 包 (Payload) 外 增 


加 了 不 少 东 西 。PCIe 必 须 靠 这 些 东西 来 你 证 传输 的 可 靠 性 。 


物理 层 ”数据 链 路 层 事务 层 数据 链 路 层 ”物理 层 


l Byte 2 Bytes 12 or 16 Bytes 0-4096 Bytes 4 Bytes 4 Bytes l Byte 


图 5-68 PCIe 2.0TLP 格 式 


Transaction Layer: TLP Header ^ ECRC; Data Link Layer: 
Sequence ^ LCRC; PHY Layer: Start、End 这 些 七 七 八 八 的 加 起 来 ， 大 
概 每 个 TLP 会 带 来 20~-30Byte 的 额外 开销 。 


3. Traffic Overhead 


PCIe 协 议 为 了 进行 时 钟 偏差 补偿 ， 会 发 送 Skip， 作 用 有 点 像 SAIA 
协议 的 ALIGN。GenLl/Gen2 一 个 Skip 是 4Byte，Gen3 是 16Byte，Skip 是 定 
期 发 送 的 ， 以 Gen2 为 例 ， 每 隔 1538 个 symbol time (symbol time 就 是 
PCIe Link 上 发 送 一 个 Byte 需 要 花费 的 时 间 ) 就 必须 发 一 个 。PCIe 协 议 
不 允许 在 TLP 中 间 插 入 Skip Order-set， 只 能 在 两 个 TLP 的 间隔 中 间 发 ， 
这 也 会 市 来 损耗 。 


4.Link Protocol Overhead 


PCIe 是 个 有 态度 的 协议 ，RC (主机 ) 和 EP (PCIe SSD) 之 间 发 送 
的 每 一 个 TLP， 都 需要 对 方 告知 接收 的 情况 。 


以 主机 传输 数据 给 SSD 为 例 : 


:主机 发 送 一 个 MemWr 的 TLP 以 后 ， 会 把 这 个 TLP 存 在 自己 这 边 
Data Link Layer Replay Buffer 里 ， 同 时 等 SSD 回 复 。 


.SSD 收 到 这 个 TLP 以 后 ， 如 果 没 问题 ， 束 回复 ACK e 


.主机 收 到 ACK 以 后 就 知道 Replay Buffer 备 份 的 TLP 没 用 了 ， 可 以 用 
后 续 的 TLP 履 盖 。 


:SSD 收 到 TLP 如 果 发 现 有 问题 ， 比 如 说 LCRC 错 误 ， 束 回复 NAK。 


主机 收 到 NAK 以 后 就 把 Replay Buffer 里 的 TLP 拿 出 来 ， 再 发 给 SSD 
CE o 


.SSD 再 检查 ， 然 后 再 回复 ACK ° 


有 态度 是 要 付出 代价 的 ，ACK 和 NAK 的 发 送 本 身 也 会 造成 性 能 损 
耗 ， 另 外 这 里 还 要 一 个 平衡 需要 掌握 : PCIe 要 求 每 一 个 TLP， 都 需要 对 
方 发 送 ACK 确 认 ， 但 是 允许 对 方 接收 几 个 TLP 以 后 再 发 一 个 ACK 确 
认 ， 这 样 可 以 减少 ACK 发 送 的 数量 ， 对 性 能 有 所 帮助 。 但 是 这 个 连续 
发 送 TLP 的 数量 也 不 能 太 多 ， 因 为 Replay buffer 是 有 限 的 ， 一旦 满 了 后 
面 的 TLP 就 不 能 发 送 了 。 


5.Flow control 


PCIe 是 个 有 腔调 的 协议 ， 上 自 带 一 个 流 控 机 制 ， 目 的 是 防止 接收 方 


receiver buffer overflow ° 


RC 跟 EP 之 间 通 过 交换 一 种 叫 UpdateFC 的 DLLP 来 告知 对 方 自己 目 
前 receive buffer 的 情况 ， 显 然 发 送 这 个 也 会 占用 训 宽 ， 从 而 对 性 能 产生 
影响 o 


跟 ACK 类 似 ，UpdateFC 的 发 送 需 要 考虑 频率 问题 ， 更 低 的 频率 对 
性 能 有 好 处 ， 但 是 要 求 设 备 有 较 大 的 receiver buffer 。 


6.System Parameters 


System Parameters 主 要 有 三 个 ，MPS (Max Payload Size) ^ Max 
Read Request Size 和 RCB (Read Completion Boundary) ， 前 两 个 前 面 已 
经 介绍 过 了 ， 这 里 简单 说 一 下 RCB 。 


看 PCIe Trace 时 候 ， 经 常 遇 到 的 情况 是 ，PCIe SSD 癌 主机 发 了 一 个 
MemRd 的 TLP 要 求 数 据 ， 虽 然 MPS 是 256Byte 甚 至 是 512Byte， 结 果 主 机 
回复 了 一 堆 的 64Byte 或 者 128Byte 的 CplD ° 


导致 这 个 情况 的 原因 就 是 RCB，RC 人 允许 使 用 多 个 CplD 回 复 一 个 
Read Request， 而 这 些 回 复 的 CplD 通 常 以 64Byte 或 128Byte 为 单位 (18 
有 32Byte 的 ) ， 原 则 就 是 在 Memory 里 做 到 地 址 对 齐 。 

研究 完 这 些 因 素 ， 需 要 量化 计算 。 

下 面 用 一 个 公式 说 明 : 

Bandwidth=[ (Total Transfer Data Size) / (Transfer Time) ] 

已 知 条 件 : 

:200 个 MemWr TLP; 

:MPS7128; 

PCIe Gen1x8 ° 


准备 活动 : 


.计算 Symbol Time，2.5Gbps 换 算 成 1 个 Byte 传 输 时 间 是 4ns; 
.8 个 Lane， 所 以 每 4ns 可 以 传输 8 个 Byte; 


:TLP 传 输 时 间 : [ (128Bytes Payload+20Byte 
overhead) /8Byte/Clock]x[Ans/Clock]-74ns; 


.DLLP 传 输 时 间 : [8Bytes/8Byte/Clock]x[4ns/Clock]-4ns ° 
假设 : 

每 5 个 TLP 回 复 1 个 ACK; 

每 4 个 TLP 发 送 一 个 FC Update ° 

正式 计算 : 

:总 共 的 数据 : 200x128Byte-25600Byte; 

.传输 时 间 : 200x74ns+40x4ns+50x4ns=15160ns; 

性能: 25600Bytes/15160ns-1689MB/s ° 


可 将 MPS 调 整 到 了 512B。 重 新 计算 ， 结 果 增 加 到 了 1912MB/s， 看 
到 这 个 数字 可 知 ， 以 前 的 SATA SSD 可 以 退 体 了。 


以 上 的 例子 是 以 MemWr 为 例 ， 而 使 用 MemRd 的 时 候 ， 情 况 略 有 不 
Ej: MemWr 的 TLP 自 带 Data Payload， 而 MemRd 是 先 发 一 个 Read 
Request TLP， 而 后 对 方 回复 CplD 进 行 Data 传 输 ， 而 CplD Payload 的 Size 
则 会 受到 RCB 的 影响 。 


第 6 章 NVMe 介 绍 
6.1 AHCISINVMe 


HDD 和 早期 的 SSD 绝 大 多 数 都 是 使 用 SATA 接 口 ， 跑 的 是 AHCI 
(Advanced Host Controller Interface) ， 它 是 由 Intel 联 合 多 家 公司 人 研发 
的 系统 接口 标准 。AHCI 支 持 NCQ (Native Command Queuing) 功能 和 
热 插 拔 技术 。NCQ 最 大 深度 为 32， 即 主机 最 多 可 以 发 32 条 命令 给 HDD 
a RZ Bi f zu. HBEXRAR B DVITEEG, EA EREKE E 


在 HDD 时 代 或 者 SSD 早 期 ，AHCI 协 议和 SATA 接 口 足 够 满足 系统 性 
能 需求 ， 因 为 整个 系统 的 性 能 瓶颈 在 硬盘 端 〈 低 速 ， 高 延 时 ) ， 而 不 
是 在 协议 和 接口 端 。 然 而 ， 随 着 SSD 技 术 的 飞速 发 展 ，SSD 盘 的 性 能 郑 
升 ， 底 层 闪 存 带宽 越 来 越 宽 ， 介 质 访问 延 时 越 来 越 低 ， 系 统 性 能 瓶颈 
已 经 由 下 转移 到 上 面 的 接口 和 协议 处 了 。AHCI 和 SATA 已 经 不 能 满足 高 
i 因此 SSD 迫 切 需 要 自己 更 快 、 更 高 效 的 协议 
0 接口。 


时 势 造 英雄 ， 在 这 样 的 背景 下 ，NVMe 横 空 出 世 。2009 年 下 半年 ， 
在 市 头 大 哥 Intel 的 领导 下 ， 美 光 、 戴 尔 、 三 星 、Marvell 等 巨头 ， 一 起 
制定 了 专门 为 SSD 服 务 的 NVMe 协 议 ， 则 在 将 SSD 从 老 旧 的 SATA 和 
AHCI 中 解放 出 来 。 


何 为 NVMe? NVMeB[Non-Volatile Memory Express， 是 非 易 失 性 存 
储 器 标准 ， 是 跑 在 PCIe 接 口上 的 协议 标准 。NVMe 的 设计 之 初 就 有 充分 
利用 了 PCIe SSD 的 低 延 时 以 及 并 行 性 ， 还 有 当代 处 理 絮 、 平 台 与 应 用 
的 并 行 性 。 相 比 现在 的 AHCI 标 准 ，NVMe 标 准 可 以 带 来 多 方面 的 性 能 
提升 。NVMe 为 SSD 而 生 ， 但 不 局 限于 以 内 存 为 媒介 的 SSD， 它 同样 可 
以 应 用 在 高 性 能 和 低 延 时 的 3D XPoint 这 类 新 型 的 介质 上 。 


首 款 支 持 NVMe 标 准 的 产品 是 三 星 XS1715， 于 2013 年 7 月 发 布 。 随 
后 陆续 有 企业 级 的 NVMe 标 准 SSD 推 出 。2015 年 Intel 750 发 布 ， 标 志 着 
NVMe 标 准 的 产品 开始 进入 消费 级 市 场 。 如 今 市 面 上 已 经 出 现 很 多 
NVMe SSD 产 品 ， 包 括 企 业 级 和 消费 级 ， 如 果 说 前 几 年 NVMe SSD 是 阳 
春 白雪 ， 现 如 今 已 是 下 里 巴 人 ，NVMe SSD 已 慢 慢 进入 寻常 百姓 家 。 


需要 指出 的 是 ， 在 移动 设备 上 ，NVMe 也 占有 一 席 之 地 。 苹 果 自 
iPhone 6s 开 始 ， 其 存储 设备 上 跑 的 就 是 NVMe 协 议 标 准 。 未 来 移动 存储 
的 方向 ， 笔 者 认为 不 是 UFES， 当 然 更 不 会 是 MMC， 而 是 NVMe， 拭 目 
以 待 吧 。 

那么 ，NVMe 究 竟 有 什么 好 ? 跟 AHCI 相 比 ， 它 有 哪些 优势 ? 

NVMe 和 AHCI 相 比 ， 它 的 优势 主要 体现 在 以 下 几 点 : 

1. 低 时 延 (Latency) 


造成 便 盘 存储 时 延 的 三 大 因素 : 存储 介质 本 身 、 控 制 器 以 及 软件 
接口 标准 。 

.存储 介质 层面 ， 闪 存 (Flash) 比 传统 机 械 硬 盘 速 度 快 太 多 了 。 

Fetlar, MSATA SSD 人 发展 成 PCIle SSD， 原 生 PCIe 主 欣 与 CPU 


直接 相连 ， 而 不 像 传 统 方式 ， 要 通过 南 桥 控制 颖 中 转 再 连接 CPU， 
此 基于 PCIe 的 SSD 时 延 更 低 。 


.软件 接口 方面 ，NVMe 缩 短 了 CPU 到 SSD 的 指令 路 径 ， 比 如 NVMe 
减少 了 对 寄存 器 的 访问 次 数 ;， 使 用 了 MSI-X 中 断 管 理 ， 并 行 & 多 线程 优 
化 -NVMe 减 少 了 各 个 CPU 核 之 间 的 锁 同步 操作 等 。 


所 以 基于 PCIe+rNVMe 的 SSD 具 有 非常 低 的 延 时 ， 如 图 6-1 所 示 。 


时 延 : 微 秒 
10 000 


100 


175 


基于 闪存 的 SSD 时 延 是 传统 HDD 的 1/100 


NVMe 减少 了 20us 的 时 延 
50 基于 3D XPoint 的 SSD 是 基于 闪存 SSD 时 延 的 1/10 
25 


0 
HDD+ SSDNAND SSD 3D XPoint™ 
SAS/SATA+SAS/SATA NAND SSD+NVMe 
+NVMe 


Wn m 接口 控制 硕 时 延 C 软件 时 延 


图 6-1 时 延 对 比 
2. 高 性 能 (Throughput&IOPS) 


理论 上 ，IOPS= 队 列 深度 /IO 延迟 ， 故 IOPS 的 性 能 与 队列 深度 有 较 
大 的 关系 〈 但 IOPS 并 不 与 队列 深度 成 正比 ， 因 为 实际 应 用 中 ， 随 着 队 
列 深 度 的 增加 ，IO 延 迟 也 会 提高 ) 。 市 面 上 性 能 不 错 的 SATA 接 口 
SSD， 在 队列 深度 上 都 可 以 达到 32， 然 而 这 也 是 AHCI 所 能 做 到 的 极 
限 。 但 目前 高 端的 企业 级 PCIe SSD， 其 队列 深度 可 能 要 达到 128， 甚 至 
是 256 才 能 够 发 挥 出 最 高 的 IOPS 性 能 。 而 在 NVMe 标 准 下 ， 最 大 的 队列 


深度 可 达 64K。 此 外 ，NVMe 的 队列 数量 也 从 AHCI 的 1， 提 高 到 了 
64K 。 


PCIe 接 口 本 身 在 性 能 上 碾 压 SATA， 再 加 上 NVMe 具 有 比 AHCI 更 
深 、 更 宽 的 命令 队列 ，NVMe SSD 在 性 能 上 秒杀 SATA SSD 是 水 到 渠 成 
的 事情 。 图 6-2 是 NYMe SSD ` SAS SSD 和 SATA SSD 的 性 能 对 比 图 。 


B PCIe/NVMe 
B SAS 12 Gb/s dual port 


SATA 6 Gb/s 
4K 随机 负载 ，QD=128 顺序 负载 ，QD=128 
500 000 3 000 
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图 6-2 NVMe, SASTISATA SSD 性 能 对 比 图 
3. 低 功 耗 


NVMe 加 入 了 目 动 切 耗 状态 切换 和 动态 能 耗 管理 功能 ， 具 体 在 本 书 
的 第 8 草 会 介绍 ， 这 里 不 再 警 述 。 


下 面 大 部 分 章节 来 源 于 www.ssdfans.com BJ. E4&EiNVMe? £& 
列 。 另 外 ， 最 新 NVMe 协 议 标 准 是 NVMe1.3， 但 本 章 是 基于 NVMe1.2 写 
的 ， 请 读者 知晓 。 


62 NVMe 综 壕 
NVMe 是 一 种 主机 (Hos) 与 SSD 之 间 通 信 的 协议 ， 它 在 协议 栈 中 


隶属 高 层 ， 如 图 6-3 所 示 。 


数据 链 路 层 


PCle 


图 6-3 ”NVMe 处 于 协议 栈 的 最 高 层 


NVMe 作 为 命令 层 和 应 用 层 协 议 ， 理 论 上 可 以 适 配 在 任何 接口 协议 
上 上。 但 NVMe 协 议 的 原配 是 PCIe， 因 此 如 无 特别 说 明 ， 后 面 章节 都 是 基 
于 NVMe+PCIe ° 


NVMe 在 协议 栈 中 处 于 应 用 层 或 者 命令 层 ， 它 是 指挥 陡 、 军 师 ， 相 
当 于 三 国 时 期 诸葛 亮 的 角色 , “运筹 帷 帐 之 中 ， 决 胜 千 里 之 外 ”。 军 师 
设计 好 计谋 ， 束 交 由 手下 五 虎 大 将 去 执行 。NVMe 的 手下 大 将 就 是 
PCIe， 它 所 制定 的 任何 命令 ， 都 区 由 PCIe 去 完成 。 昌 然 NVMe 的 命令 也 
0 由 别 的 接口 完成 ,但 NVMe 与 PCIe 合 作 形成 的 战斗 力 无 疑 是 最 强 


NVMe 是 为 SSD 所 生 的 。NVMe 出 现 之 前 ，SSD 绝 大 多 数 用 的 是 
AHCI 加 SATA 的 组 合 ， 后 者 其 实 是 为 传统 HDD 服 务 的 。 与 HDD 相 比 ， 
SSD 具 有 更 低 的 延 时 和 更 高 的 性 能 ，AHCI 已 经 不 能 跟 上 SSD 性 能 发 展 
的 步伐 ， 而 是 成 为 了 制约 SSD 性 能 的 瓶颈 。 所 有 SATA 接 口 的 SSD， 你 


去 看 性 能 参数 ， 会 发 现 都 不 会 超过 600MB/s (或 者 说 都 不 超过 
560MB/s) 。 


如 果 碰 到 有 人 中 你 说 他 的 SATA SSD 读 取 性 能 可 以 超过 600MB/s， 
直接 拨打 12315 投 诉 。 不 是 底层 闪存 带宽 不 够 ， 是 SATA 接 口 速度 限制 
了 带宽 ， 因 为 SATA 3.038 sj 98,45 600MB/s, Tf] HA BFBSATA 4.0 
了 ， 如 图 6-4 所 示 。 


PCle 


8Gbps( x 2) | 16Gbps( x 2) 
16Gbps( x 4) | 32Gbps( x 4) 


3.0 


链 路 速度 | ”3Gbps 6Gbps 
有 效 数 据 速率 | 约 275MB/s | 约 560MB/s 


图 6-4 SATA 和 PCIe 接 口 速度 对 比 


好 吧 ， 既 然 SATA 接 口 速度 太 慢 ， 那 么 用 PCIe 好 了 ， 不 过 上 层 协 议 
还 是 AHCI 。 五 席 上 将 有 了 ， 由 刘备 指挥 ， 让 人 不 禁 感叹 暴 珍 天 物 呀 。 
刘备 什么 水 平 ， 诸 万 亮 出 现 之 前 ， 居 无 定 所 ， 一 会 跟着 曹操 混 ， 一 会 
又 跟着 吕布 混 ， 谁 肯 收 留 就 跟 谁 混 ， 惨 呀 ! AHCI 和 刘备 一 个 德行 ， 只 
有 一 个 命令 队列 ， 最 多 同时 只 能 发 32 条 命令 ，HDD 时 代 〈 和 群雄 逐鹿 ) 
Ahem, SSD (SEMA) 就 只 有 被 炙 的 份 。 刘 备 需要 三 顾 茅 
访 ， 请 诸 万 亮 出 山 辅佐。 同样 ，SSD 需 要 PCIe， 更 需要 NVMe。 

在 这 样 的 背景 下 ，Intel 等 巨头 携 天 了 于 以 令 诸 侯 ， 集 大 家 的 智 正 ， 
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初 制定 NVMe 规 范 的 主要 公司 如 图 6-5 所 示 。 
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图 6-5 ”最初 制定 NVMe 规 范 的 主要 公司 


NVMe 制 定 了 主机 与 SSD 之 间 通 信 的 命令 ， 以 及 命令 如 何 执行 的 。 
NVMe 有 两 种 命令 ， 一 种 叫 Admin 命 令 ， 用 以 主机 管理 和 控制 SSD; A 
外 一 种 就 是 LO 命令 ， 用 以 主机 和 SSD 之 间 数 据 的 传输 ， 如 图 6-6 所 示 。 


A» 
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图 6-6 NVMe ó 


NVMe 支 持 的 Admin 命 令 如 图 6-7 所 示 。 
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图 6-7 NVMeAdmin 命 令 集 


O Red — | A 
必须 的 数据 全 人 
过 的 数据 全 人 
T 
Reservation 命令 
图 6-8 NVMe NVM 命 令 集 
跟 ATA 规 范 中 定义 的 命令 相 比 ，NVMe 的 命令 个 数 少 了 很 多 ， 完 全 
是 为 SSD 量 身 定制 的 。 在 SATA 时 代 ， 即 使 只 有 HDD 才 需要 的 命令 
(SSD 上 其 实 完全 没有 必要 ) ， 但 为 了 符合 协议 标准 ，SSD 还 是 需要 实 


现 那些 毫 无 意义 (完全 只 是 为 了 兼容 性 ) 的 命令 。 没 有 办 法 ， 谁 叫 你 
SSD 寄 人 管 下 呢 。NVMe 让 SSD 扬 眉 吐 气 了 一 把 。 


_ 大 家 现在 别 纠结 于 具体 的 命令 ， 了 解 一 下 束 好 。 本 章 旨 在 授 之 
以 “ 渔 >， 而 非 “ 鱼 ”， 因 此 不 会 介绍 具体 的 NVMe 命 令 ， 不 会 把 协议 命令 
搬 过 来 凌 篇 幅 。 


命令 有 了 ， 那 么 ， 主 机 又 是 怎么 把 这 些 命令 发 送 给 SSD 执 行 呢 ? 


NVMe —5K: Submission Queue (SQ) ` Completion Queue 
(CQ) 和 Doorbell Register (DB) 。SQ 和 CQ 位 于 主机 的 内 存 中 ，DB 
则 位 于 SSD 的 控制 器 内 部 ， 如 图 6-9 所 示 。 


这 张 图 信息 量 比 较 大 ， 除 了 让 我 们 知道 SQ 和 CQ 在 主机 的 内 存 

(Memory) 中 以 及 DB 在 SSD 端 外 ， 而 且 让 我 们 对 一 个 PCIe 系 统 有 一 个 
直观 的 认识 。 图 6-9 中 的 NVMe 子 系统 一 般 束 是 SSD。 请 看 这 张 图 几 秘 
钟 ， 然 后 团 上 上 腿 ， 脑 补 SSD 所 处 的 位 置 ， SSD 作 为 一 个 PCIe Endpoint 
(EP) 通过 PCIe 连 着 Root Complex (RC) ， 然 后 RC 连接 着 CPU 和 内 
存 。RC 是 什么 ? 我 们 可 以 认为 RC 就 是 CPU 的 代言 人 或 者 助理 。 作 为 系 
统 中 的 最 高 层 ，CPU 说 : “我 很 忙 的 ， 你 SSD 有 什么 事情 先 跟 我 助理 
说 ! ”尽管 如 此 ，SSD 的 地 位 还 是 较 过 去 提升 了 一 级 ， 过 去 SSD 别 说 直 
就 是 连 助 理 的 面 都 见 不 到 ，SSD 和 助理 之 间 还 隔 着 一 
RN kea 


回 到 我 们 的 “吉祥 三 宝 ”(SQ、CQ、DB) 。SQ 位 于 主机 内 存 中 ， 
主机 要 发 送 命令 时 ， 先 把 准备 好 的 命令 放 在 SQ 中 ， 然 后 通知 SSD 来 
取 ; CQ 也 十 位 于 主机 内 存 中 ， 一 个 命令 执行 完成 ， 成 功 或 失败 ，SSD 
总 会 往 CQ 中 写 入 命令 完成 状态 。DB (KE) 又 是 干什么 用 的 呢 ? 主机 
发 送 命令 时 ， 不 是 直接 往 SSD 中 发 大 命令， 而 是 把 命令 准备 好 放 在 目 己 
的 内 存 中 ， 那 去 么 通知 SSD 来 获取 命令 执行 呢 ? 主 机 束 古 通过 写 SSD 闹 
的 大 至 寄存 着 来 告知 SSD 的 。 
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NVME 子 系统 : 
1) 控制 前 ; 
2) 非 挥 发 性 存储 — 
介质 (如 闪存 ); PCle Endpoint 
3 ) PCle 接口 。 


图 6-9 ”SQ、CQ 和 DB 在 系统 中 的 位 置 
我 们 来 看 看 NVMe 是 如 何 处 理 命 令 的 ， 如 图 6-10 所 示 。 
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图 6-10 ”NVMe 命 令 处 理 流程 
说 ， 把 大 象 放 冰 箱 一 共 要 几 步 ? 
管 : Le 
第 一 步 ， 打 开 冰 箱 门 ; 
第 二 步 ， 放 进 大 象 ; 
第 三 步 ， 关上 冰箱 门 。 
说 ，NVMe 处 理 命令 需要 几 步 ? 答 : 八 步 。 
第 一 步 ， 主 机 写 命令 到 SQ: 
第 二 步 ， 主 机 写 SQ 的 DB， 通 知 SSD 取 指 ; 
第 三 步 ，SSD 收 到 通知 后 ， 到 SQ 中 取 指 ; 
第 


四 步 ，SSD 执 行 指令 ; 


第 五 步 ， 指 令 执行 完成 ，SSD 往 CQ 中 写 指令 执行 结果 ; 


六 步 ， 然 后 SSD 发 中 断 通知 主 机 指令 完成 
七 步 ， 收 到 中 断 ， 主 机 处 理 CQ， 查 看 指令 完成 状态 ; 


八 步 ， 主 机 处 理 完 CQ 中 的 指令 执行 结果 ， 通 过 DB 回复 SSD: 指 
令 执 行 RD. FERT! 


W z 


63 吉祥 三 宝 : SQ、CQ 和 DB 
接 下 来 我 们 来 详细 看 看 NVMe 的 吉祥 三 宝 。 


主机 往 SQ 中 写 入 命令 ，SSD 往 CQ 中 写 入 命令 完成 结果 。SQ 与 CQ 
的 关系 ， 可 以 是 一 对 一 的 关系 ， 也 可 以 是 多 对 一 的 关系 ， 但 不 管 怎 
样 ， 它 们 是 成 对 的 : 有 因 就 有 果 ， 有 SQ 就 必然 有 CQ。 


有 两 种 SQ 和 CQ， 一 种 是 Admin， 另 外 一 种 是 IO， 前 者 放 Admin 命 
令 ， 用 以 主机 管理 控制 SSD， 后 者 放置 IO 命令 ， 用 以 主机 与 SSD 之 间 传 
输 数 据 。Admin SQ/CQ 和 IO SQ/CQ 各 司 其 职 ， 你 不 能 把 Admin 命 令 放 
到 IO SQ 中 ， 同 样 ， 你 也 不 能 把 IO 命令 放 到 Admin SQ 里 面 。IO SQ/CQ 
不 是 一 生 下 来 就 有 的 ， 它 们 是 通过 Admin 命 令 创 建 的 。 


正如 图 6-11 所 示 ， 系 统 中 只 有 1 对 Admin SQ/CQ， 它 们 是 一 一 对 应 
的 关系 ; IO SQ/CQ 却 可 以 有 很 多 ， 多 达 65535 对 (64K 减 去 1 对 Admin 
SQ/CQ) 


需要 指出 的 是 ， 对 NVMe over Fabrics，SQ 和 CQ 的 关系 只 能 是 一 对 
—; IO SQ/CQ 也 不 是 通过 Admin 命 令 创 建 的 。 


主机 端 每 个 CPU 核 (Cor) 可 以 有 一 个 或 者 多 个 SQ， 但 只 有 一 个 
CQ。 给 每 个 CPU 核 分 配 一 对 SQ/CQ 好 理解 ， 为 什么 一 个 CPU 核 中 还 要 
多 个 SQ 呢 ? 一 是 性 能 需求 ， 一 个 CPU 核 中 有 多 线程 ， 可 以 做 到 一 个 线 
程 独 享 一 个 SQ; 二 是 QoS 需 求 ， 什 么 是 QoS? Quality of Service， 服 务 
质量 。 脑 补 一 个 场景 ， 蛋 蛋 一 边 看 小 电影 ， 同 时 在 后 台 用 迅雷 下 载 小 

影 ， 由 于 电脑 配置 差 ， 看 个 小 电影 都 卡 。 蛋 蛋 不 要 卡 顿 ! 怎么 办 ? 
NVMe 建 议 ， 你 设置 两 个 SQ， 一 个 赋予 高 优先 级 ， 一 个 低 优先 级 ， 把 
看 小 电影 所 需 的 命令 放 到 高 优先 级 的 SQ， 迅 雷 下 载 所 需 的 命令 放 到 低 
优先 级 的 SQ， 这 样 ， 你 的 电脑 就 能 把 有 限 的 资源 优先 满足 你 看 小 电影 
了 。 至 于 迅雷 卡 不 卡 ， 下 载 慢 不 慢 ， 这 个 时 候 已 经 不 重要 了 。 能 让 有 蛋 
蛋 舒 舒服 服 地 看 完 一 部 小 电影 ， 就 是 好 的 QoS。 实 际 系统 中 用 多 少 个 
SQ， 取 决 于 系统 配置 和 性 能 需求 ， 可 灵活 设置 VO SQ 个 数 。 
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图 6-11 SQ 和 CQ 


, 关于 系统 中 IO SQ 的 个 数 ，NVMe 白 皮 书 给 出 如 下 建议 ( 见 表 6- 
1 o 


表 6-1 NVMe 白 皮 书 对 NVMe 的 配置 建议 


FERAN [T 
suxn MSEX 
mE zn 
端 到 端 数据 保护 不 支持 
Suv EH rh 


作为 队列 ， 每 个 SQ 和 CQ 都 有 一 定 的 深度 : 对 Admin SQ/CQ 来 说 ， 
其 深度 可 以 是 2~-4096 (AK) ; 对 IO SQ/CQ， 深 度 可 以 是 2~65536 
(64K) 。 队 列 深度 也 是 可 以 配置 的 。 


SQ/CQ 的 个 数 可 以 配置 ， 每 个 SQ/CQ 的 深度 也 可 以 配置 ， 因 此 
NVMe 的 性 能 是 可 以 通过 配置 队列 个 数 和 队列 深度 来 灵活 调节 的 。 


百 变星 君 NVMe: WPM, WED; Trium. BEE o 
我 们 已 经 知道 ，AHCI 只 有 一 个 命令 队列 ， 且 队列 深度 是 固定 的 


32， 和 NVMe 相 比 ， 无 论 是 在 命令 队列 广度 还 是 深度 上 ， 都 是 无 法 望 其 
项 背 的 ，NVMe 命 令 队 列 的 百般 变化 ， 更 是 AHCI 无 法 做 到 的 。 说 到 百 


般 变 化 ， 我 突然 又 想到 一 件 残 忍 的 事情 : PCIe 也 是 可 以 的 。 一 个 PCIe 
接口 ， 可 以 有 1、2、4、8、12、16、32 条 lane! SATAZEESS T; 单 挑 
都 挑 不 过 你 ， 你 还 来 群 殴 我 ， 太 欺负 人 了 ° 


每 个 SQ 放 入 的 是 命令 条 目 ， 无 论 是 Admin 还 是 IO 命令 ， 每 个 命令 


条 目 大 小 都 是 64 字 下 ; 每 个 CQ 放 入 的 是 命令 完成 状态 信息 条 目 ， 每 个 
条 目 大 小 是 16 字 廊 。 


在 继续 谈 大 宝 (DB) 之 前 ， 先 对 SQ 和 CQ 做 个 小 结 : 
:SQ 用 以 主机 发 命令 ，CQ 用 以 SSD 回 命令 完成 状态 ; 


-SQ/CQ 可 以 在 主机 的 内 存 中 ， 也 可 以 在 SSD 中 ， 但 一 般 在 主机 内 
(本 书 中 除非 特殊 说 明 ， 不 然 都 是 基于 SQ/CQ 在 主机 内 存 中 作 介 
A 


, 


:两 种 类 型 的 SQ/CQ: Admin 和 IO， 前 者 发 送 Admin 命 令 ， 后 者 发 送 


IO 命令 ; 
系统 中 只 能 有 一 对 Admin SQ/CQ， 但 可 以 有 很 多 对 IO SQ/CQ; 
IO SQ 与 CQ 可 以 是 一 对 一 的 关系 ， 也 可 以 是 多 对 一 的 关系 ; 
IO SQ 是 可 以 赋予 不 同 优先 级 的 ; 
JO SQ/CQ 深 度 可 达 64K，Admin SQ/CQ 深 度 可 达 4K; 
-TO SQ/CQ 的 广度 和 深度 都 可 以 灵活 配置 ; 


-每 条 命令 大 小 是 64B， 每 条 命令 完成 状态 是 16B。 


SQ/CQ 中 的 “Q” 指 Queue， 队 列 的 意思 〈 见 图 6-12) ， 无 论 SQ 还 是 
CQ， 都 是 队列 ， 并 且 是 环形 队列 。 队 列 有 几 个 要 素 ， 除 了 队列 深度 、 
队列 内 容 ， 还 有 队列 的 头 部 (Head) 和 尾部 (Tail) 。 


尾部 一 > 


队列 大 小 
头 部 —> 


Ey 


尾部 


"E m 内 存 中 物理 视图 
32 s LT 
图 6-12 ”队列 (Queue) 的 概念 


队伍 头 部 的 那个 正在 被 服务 或 者 等 竺 被 服务 ， 一 旦 完成 ， 就 离开 
队伍 。 可 见 队 列 的 头 尾 很 重要 ， 头 决定 谁 会 被 马上 服务 ， 尾 巴 决 定 了 
新 来 的 人 站 的 位 置 。DB 就 是 用 来 记录 了 一 个 SQ 或 者 CQ 的 头 和 尾 。 每 
个 SQ 或 者 CQ， 都 有 两 个 对 应 的 DB: Head DB 和 Tail DB。DB 是 在 SSD 
端的 寄存 器 ， 记 录 SQ 和 CQ 的 头 和 尾巴 的 位 置 。 


如 图 6-13 所 示 是 一 个 队列 生产 者 /消费 者 (Producer/Consumer) 模 
型 。 生 产 者 往 队 列 的 尾部 写 入 东西 ， 消 费 者 从 队列 的 头 部 取出 东西 。 
对 一 个 SQ 来 说 ， 它 的 生产 者 是 主机 ， 因 为 它 同 SQ 的 尾部 写 入 命令 ， 消 
费 者 是 SSD， 因 为 它 从 SQ 的 头 部 取出 指令 执行 ， 对 一 个 CQ 来 说 ， 刚 好 
相反 ， 生 产 者 是 SSD， 因 为 它 向 CQ 的 尾部 写 入 命令 完成 信息 ， 消 费 者 
则 是 主机 ， 它 从 CQ 的 头 部 取出 命令 完成 信息 。 


队列 基 址 c» 


e 队列 尾部 : 生产 者 写 入 


队列 头 部 : 消费 者 取出 区 > 


图 6-13 ”队列 生产 者 /消费 者 模型 
下 面 举 个 例子 说 明 。 
1) 开始 假设 SQ1 和 CQ1 是 空 的 ，Head=Tail=0， 如 图 6-14 所 示 。 
系统 内 存 


SSD 控制 器 
SQ1 Head DB: SQ1 Tail DB: 
X EAE 主机 写 


CQI Head DB: CQI Tail DB: 
主机 写 控制 器 写 
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图 6-14” SQ、CQ、DB 初 始 化 状态 


2) 这 个 时 候 ， 主 机 往 SQ1 中 写 入 了 三 个 命令 ，SQ1 的 Tail 则 变 成 
3。 主 机 往 SQ1 写 入 三 个 命令 后 ， 然 后 麻 详 过 海 去 更 新 SSD 控 制 锅 端的 
SQ1Tail DB 寄存 器 ， 值 为 3。 主 机 更 新 这 个 寄存 器 的 同时 ， 也 是 在 告诉 
SSDI Hir: 有 新 命令 了 ， 帮 忙 去 我 那里 取 一 下 ， 如 图 6-15 所 示 。 


3) SSD 控 制 器 收 到 通知 后 ， 于 是 派 人 去 SQ1 把 3 个 命令 都 取 回 来 执 
行 。SSD 把 SQ1 的 三 个 命令 都 消费 了 ，SQ1 的 Head 从 而 也 调整 为 3，SSD 
控制 器 会 把 这 个 Head 值 写 入 本 地 的 SQ1Head DB 寄存 器 ， 如 图 6-16 所 
不 o 

4) SSD 执 行 完了 两 个 命令 ， 于 是 往 CQ1 中 写 入 两 个 命令 完成 信 
已， 更 新 CQ1 对 应 的 Tail DB 寄存 器 ， 值 为 2。 同 时 发 消息 给 主机 : 有 命 
令 完 成 ， 请 注意 查看 ， 如 图 6-17 所 示 。 


系统 内 存 


SSD iz filz 
SQI Head DB: SQY Tail DB: 
PERR 


CQ1 Head DB: CQ1 Tail DB: 
主机 写 控制 器 写 
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图 6-15 “主机 往 SQ 中 写 入 三 个 命令 


zz 52 一 
系统 内 存 


SSD 控制 器 
SQI Head DB: SQI Tail DB: 
Tédil dn 3 主机 写 


CQI Head DB: CQI Tail DB: 
主机 写 控制 器 写 
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Kle-16 ”SSD 取 走 三 个 命令 


zz y2- t 
系统 内 存 


SQI 


SSD $2 bi gS 
SQ1 Head DB: SQI Tail DB: 


CQI Head DB: CQI Tail DB: 
主机 写 Hu 


图 6-17 SSD 完 成 两 个 命令 后 写 CQ 


5) 主机 收 到 SSD 的 短信 通知 CRISE) ， 于 是 从 CQ1 中 取出 那 
两 条 完成 信息 。 处 理 完 毕 ， 主 机 又 漂 洋 过 海地 往 CQ1Head DB 寄存 絮 中 
写 入 CQ1 的 head， 值 为 2， 如 图 6-18 所 示 。 


SD 探 制 器 
SQ1 Head/DB: SQI Tail DB: 
DERE] 主机 写 


CQ1 Head DB: CQI Tail DB: 
主机 写 控制 器 写 


图 6-18 主机 处 理 完 CQ 中 的 两 个 命令 状态 


通过 这 个 例子 ,我们 义 重 温 了 一 下 命令 处 理 流程 。 之 前 也 许 只 记 
住 了 命令 处 理 需 要 8 步 (距离 曹植 一 步 之 肥 ) ， 但 现在 我 们 应 该 对 命令 
处 理 流程 有 了 更 深入 具体 的 认识 。 


那么 ，DB 在 命令 处 理 流程 中 起 了 什么 作用 呢 ? 


首先 ， 如 前 文 提 到 的， 它 记 住 了 SQ 和 CQ 的 头 和 尾 。 对 SQ 来 说 ， 
SSD 是 消费 者 ， 它 直接 和 队列 的 头 打 交道 ， 很 清楚 SQ 的 头 在 哪里 ， 所 
以 SQ head DB 由 SSD 自 己 维 护 ;， 但 它 不 知道 队伍 有 多 长 ， 尾 巴 在 哪 ， 
后 面 还 有 多 少 命令 等 竺 执行 ， 相 反 ， 主 机 知道 ， 所 以 SQ Tail DB 由 主机 
来 更 新 。SSD 结 合 SQ 的 头 和 尾 ， 就 知道 还 有 多 少 命令 在 SQ 中 等 待 执 行 
了 。 对 CQ 来 说 ，SSD 是 生产 者 ， 它 很 清楚 CQ 的 尾巴 在 哪里 ， 所 以 CQ 
Tail DB 由 自己 更 新 ， 但 是 SSD 不 知道 主机 处 理 了 多 少 条 命令 完成 信 
息 ， 需 要 主机 告知 ， 因 此 CQ Head DB 由 主机 更 新 。SSD 根 据 CQ 的 头 和 
尾 ， 就 知道 CQ 还 能 不 能 ， 以 及 能 接受 多 少 命 令 完成 信息 。 


DB 还 起 到 了 通知 作用 : 主机 更 新 SQ Tail DB 的 同时 ， 也 是 在 告知 
SSD 有 新 的 命令 需要 处 理 ; 主机 更 新 CQ Head DB 的 同时 ， 也 是 在 告知 
SSD， 你 返回 的 命令 完成 状态 信息 我 已 经 处 理 ， 同 时 表示 谢意 。 


这 里 有 一 个 对 主机 不 公平 的 地 方 ， 主 机 对 DB 只 能 写 (还 仅 限于 写 
SQ Tail DB 和 CQ Head DB) ， 不 能 读 取 DB ° 


在 这 个 限制 下 ， 我 们 看 看 主机 是 怎样 维 扩 SQ 和 CQ 的 。SQ 的 尾巴 
没有 问题 ， 主 机 是 生产 者 ， 对 新 命令 来 说 ， 它 清楚 上 自己 应 该 站 在 队伍 
哪里 。 但 是 Head 呢 ?SSD 在 取 指 的 时 候 ， 是 偷偷 进行 的 ， 主 机 对 此 毫 
不 知情 。 主 机 发 了 取 指 通知 后 ， 它 并 不 清楚 SSD 什 么 时 候 去 取 命 令 、 取 
TDR ° BAI? WER, WREEK, KREA? 山 人 目 有 
妙计 。 给 个 提示 ( 见 图 6-19) 。 


DWO | N RERAMA 
DW 1 


SQ bif —»] SQ 头 指 针 
DW3 了 | 命令 标识 符 
图 6-19 ”SQ 的 Head DB 在 命令 完成 状态 里 


这 是 什么 ? 这 是 SSD 往 CQ 中 写 入 的 命令 完成 状态 信息 (16 字 


T) 


是 的 ，SSD 往 CQ 中 写 入 命令 状态 信息 的 同时 ， 还 把 SQ Head DB 的 
信息 告知 了 主机 ! 这 样 ， 主 机 对 SQ 队列 的 头 部 和 尾部 的 信息 就 都 有 
了 ， 可 以 轻松 玩 转 SQ。 


CQ 呢 ? 主机 知道 它 队 列 的 头 部 ， 不 知道 尾部 。 那 怎么 能 知道 尾音 
Ue? 思路 很 简单 ， 既 然 SSD 知 道 ， 那 你 告诉 我 电 ! SSD 怎 么 告诉 主机 


呢 ? 还 是 通过 SSD 返 回 命令 状态 信息 获取 。 看 到 图 6-19 中 所 示 的 *P” 了 
吗 ? 于 什么 用 ? 做 标记 用 。 

具体 是 这 样 的 : 一 开始 CQ 中 每 条 命令 完成 将 条 目 中 的 “P” 比 特 初 始 
化 为 0 的 工作 ，SSD 在 往 CQ 中 写 入 命令 完成 条 目 时 ， 会 把 *P” 写 成 1 (如 
果 之 前 该 位 置 为 1， 控 制 器 写 CQ 的 时 候 翻转 该 比特 ， 即 写 0) 。 记 住 一 
点 ，CQ 是 在 主机 端的 内 存 中 ， 主 机 可 以 检查 CQ 中 的 所 有 内 容 ， 当 然 包 
括 *P” 了 。 主 机 记 住 上 次 队列 的 尾部 ， 然 后 往 下 一 个 一 个 检查 “P”， 就 
能 得 出 新 的 队列 尾部 了 。 就 是 这 样 ， 如 图 6-20 所 示 。 


Phase Tag 


Hi—-^ E 


CQ 基 址 
新 的 条 目 


新 的 转变 点 


图 6-20 ”主机 根据 PhaseTag 计 算 CQ 队 列 的 尾部 
最 后 ， 给 大 宝 做 个 小 结 : 
.DB 在 SSD 控 制 器 端 ， 是 寄存 句 ; 
-DB 记录 着 SQ 和 CQ 队列 的 头 部 和 尾部 ; 


:每 个 SQ 或 者 CQ 有 两 个 DB 一 Head DB 和 Tail DB; 
:主机 只 能 写 DB， 不 能 读 DB; 


-主机 通过 SSD 往 CQ 中 写 入 的 命令 完成 状态 获取 其 队列 头 部 或 者 尾 


6.4 HEIZE: PRP 和 SGL 


E 有 个 人 一 直 在 思考 三 个 问题 : 我 是 谁 ? 我 从 哪里 来 ? 我 要 去 哪 
[4 


我 觉得 无 外 平 这 三 种 结 采 了 。 


相 比 人 的 世 务 ， 这 三 个 问题 在 NVMe 的 世界 就 很 容易 得 到 答案 了 ， 
至 少 不 会 把 人 通 疾 。 


我 是 数据 ， RAEV 出来 ， 要 到 SSD 去 。 或 者 ， 我 是 数据 ， 我 从 
SSD, ZZ EU 


主机 如 果 想 往 SSD 上 写 入 用 户 数据 ， 需 要 告诉 SSD 写 入 什么 数据 ， 

入 多 少数 据 ， 以 及 数据 源 在 内 存 中 的 什么 位 置 ， 这 些 信息 包含 在 主 
中 。 每 笔 用 户 数据 对 应 着 一 个 叫 作 LBA 
(Logical Block Address) 的 东西 ，Write 命 令 通 过 指定 LBA 来 告诉 SSD 
写 入 的 是 什么 数据 。 对 NVMe/PCIe 来 说 ，SSD 收 到 Write 命令 后 ， 通 过 
PCIe 去 主机 的 内 存 数 据 所 在 位 置 读 取 数 据 ， 然 后 把 这 些 数据 写 入 闪存 
中 ， 同 时 生成 LBA 与 闪存 位 置 的 映射 关系 。 
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NVME 子 系统 : 
1) 控制 锅 ; 

2) 非 挥 发 性 存储 
介质 (如 闪存 ); PCle Endpoint 
3 ) PCle 接口 。 


图 6-21 数据 在 主机 内 存 和 SSD 中 流动 


主机 如 果 想 读 取 SSD 上 的 用 户 数据 ， 同 样 需要 告诉 SSD 需 要 什么 数 
据 ， 需 要 多 少数 据 ， 以 及 数据 最 后 需要 放 到 主机 内 存 的 哪个 位 置 上 
去 ， 这 些 信 息 包 含 在 主机 向 SSD 发 送 的 Read 命 令 中 。SSD 根 据 LBA， 查 
RERE ( 写 入 时 生成 的 ) ， 找 到 对 应 闪存 物理 位 置 ， 然 后 读 取 闪存 
获得 数据 。 数 据 从 | 内存 读 上 来 以 后 ， 对 NVMe/PCIe 来 说 ，SSD 会 通过 
PCIe 把 数据 写 入 主机 指定 的 内 存 中 。 这 样 就 完成 了 主机 对 SSD 的 读 访 


问 。 


在 上 面 的 描述 中 ， 大 家 有 没有 注意 到 一 个 问题 ， 那 就 是 主机 在 与 
SSD 的 数据 传输 过 程 中 ， 主 机 是 被 动 的 一 方 ，SSD 是 主动 的 一 方 。 主 机 
需要 数据 ， 是 SSD 主 动 把 数据 写 入 主机 的 内 存 中 ; 主机 写 数 据 ， 同 样 是 
SSD 主 动 去 主机 的 内 存 中 了 数据 ， 然 后 写 入 闪存 。 正 如 快递 小 哥 一 样 邓 
劳 ，SSD 不 仅 送 货 上 门 ， 还 上 门 取 件 。 


无 论 送 货 上 门 ， 还 是 上 门 取 件 ， 你 都 需要 告诉 快递 小 哥 你 的 地 

址 ， 世 界 那么 大 ， 人 快递 小 哥 怎 么 吏 能 找到 你 呢 ? 同样 的 ， 主 机 你 不 杀 

自传 输 数 据 ， 那 总 该 告诉 我 SSD 去 你 内 存 中 什么 地 方 取 用 户 数据 ， 或 者 
要 把 数据 写 入 到 你 内 存 中 的 什么 位 置 。 你 在 告诉 快递 小 哥 送 货 地 址 或 

者 取 件 地 址 时 ， 会 说 xx 路 xx 号 xx 弄 xx 楼 xx 室 ， 也 可 能 会 说 xx 小 区 xx 

楼 xx 室 ， 不 管 哪 种 方式 ， 快 递 小 哥 能 找到 就 行 。 主 机 也 有 两 种 方式 来 

告诉 SSD 数 据 所 在 的 内 存 位 置 ， 一 是 PRP (Physical Region Page， 物 理 
区 域 页 ， 有 人 戏称 其 为 “ 拼 人 品 ”) ， 二 是 SGL (Scatter/Gather List， 分 
散 / 聚 集 列表 ， 有 人 戏称 其 为 “ 死 过 来 ， 送 过 来 ”) 。 


先 说 PRP。NVMe 把 主机 端的 内 存 划 分 为 一 个 一 个 物理 页 
(Page) ， 页 的 大 小 可 以 是 4KB,，8KB,， 16KB, ..., 128MB ° 


PRP 古 什么 ， 长 什么 样 呢 如 图 6-22 所 示 。 


63 n+1|n 0 


页 基地 址 Jt V a Ee nt 


图 6-22 PRP 条目 (Entry) 布局 (Layout) 
PRP Entry 本 质 就 是 一 个 64 位 内 存 物理 地 址 ， 只 不 过 把 这 个 物理 地 
址 分 成 两 部 分 ， 页 起 始 地 址 和 页 内 偏 移 。 最 后 两 比特 是 0， 说 明 PRP 表 
示 的 物理 地 址 只 能 四 字 节 对 齐 访问 。 页 内 偏 移 可 以 是 0， 也 可 以 是 个 非 
零 的 值 ， 如 图 6-23 所 示 。 


主机 内 存 物 理 页 
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图 6-23 PRP 搞 述 内 存 物 理 空 间 示 例 


一 个 PRP Entry 描 述 的 是 一 个 物理 页 空间 。 如 果 需 要 描述 若干 个 物 
理 页 ， 那 就 需要 若干 个 PRP Entry。 把 若干 个 PRP Entry 连 接 起 来 ， 就 成 
了 PRP 链 表 (Lis) ， 如 图 6-24 所 示 。 


页 基地 址 k+m 
页 基地 址 k+m+1 
图 6-24 PRP 链 表 布 局 (Layout) 


是 的 ， 正 如 你 所 见 ，PRP 链 表 中 的 每 个 PRP Entry 的 偏 移 量 都 必须 
是 0，PRP 链 表 中 的 每 个 PRP Entry 都 是 描述 一 个 物理 页 。 它 们 不 允许 有 
相同 的 物理 页 ， 不 然 $SSD 往 同一 个 物理 页 写 入 几 次 数据 ， 会 导致 先 写 入 
的 数据 被 履 盖 。 


每 个 NVMe 命 令 中 有 两 个 域 ， PRP1 和 PRP2， 主 机 就 是 通过 这 两 个 
域 告 诉 SSD 数 据 在 内 存 中 的 位 置 或 者 数据 需要 写 入 的 地 址 ， 如 表 6-2 所 


zs? 


表 6-2 NVMe 命 令 格 式 中 的 PRP 


字 节 描述 

63:60 命令 Dword15 (CDW15): 命令 相关 
59:56 命令 Dword14 (CDW14): 命令 相关 
55:52 命令 Dword13 (CDW13): 命令 相关 


51:48 命令 Dword12 (CDW12): 命令 相关 


47:44 命令 Dwordll (CDW11): 命令 相关 

43:40 命令 Dword10 (CDW10). 命令 相关 

39:32 PRP Entry 2 (PRP2): 命令 中 第 二 个 地 址 条 目 (如 果 有 用 到 的 话 ) 
31:24 PRP Entry 1 (PRP1). 命令 中 第 一 个 地 址 条 目 

23:16 MetadataPointer (MPTR): 连续 元 数据 缓冲 区 地 址 

15:8 保留 

7:4 Namespaceldentifier (NSID) 

3:0 命令 Dword0 (CDW0): 所 有 命令 都 用 


PRP1 和 PRP2 有 可 能 指向 数据 所 在 位 置 ， 也 可 能 指 辣 PRP 链 表 。 类 
似 C 语 言 中 的 指针 概念 ，PRP1 和 PRP2 可 能 是 指针 ， 也 可 能 是 指针 的 指 
针 ， 还 有 可 能 是 指针 的 指针 的 指针 。 别 管 你 包 得 有 多 严实 ， 根 据 不 同 
~ SSD 总 能 一 层 一 层 地 和 剥 下 包装 ， 找 到 数据 在 内 存 的 真正 物理 地 


下 面 是 一 个 PRP1 指 向 PRP 链 表 的 示例 ， 如 图 6-25 所 示 。 


从 页 边界 偶 移 
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图 6-25 PRPA jut A Tr A RIZR 


PRP1 指 癌 一 个 PRP 链 表 ，PRP 链 表 位 于 Page 200， 页 内 偏 移 50 的 位 
置 。SSD 确 定 PRP1 是 个 指向 PRP 链 表 的 指针 后 ， 就 会 去 主机 内 存 中 
(Page 200, Offset 50) 把 PRP 链 表 取 过 来 。 获 得 PRP 链 表 后 ， 就 获得 
A SSD 然 后 就 会 向 这 些 物理 地 址 读 取 或 者 写 入 数 


对 Admin 命 令 来 说 ， 它 只 用 PRP 告 诉 SSD 内 存 物 理 地 址 ， 对 WO 命令 
来 说 ， 除 了 用 PRP， 主 机 还 可 以 用 SGL 的 方式 来 告诉 SSD 数 据 在 内 存 中 
写 入 或 者 读 取 的 物理 地 址 ， 如 表 6-3 所 示 。 


表 6-3 NVMe 命 令 格式 中 的 SGL 


字 节 描述 


63:60 命令 Dword15 (CDW15): 命令 相关 

59:56 命令 Dword14 (CDW14): 命令 相关 

55:52 命令 Dword13 (CDW13): 命令 相关 

51:48 命令 Dword12 (CDW12): 命令 相关 

47:44 命令 Dword11 (CDW11): 命令 相关 

43:40 命令 Dword10 (CDW10): 命令 相关 

ma 如 果 CDW0[15:14]=00b， 这 个 域 解释 为 PRP2+PRP1， 即 用 PRP 方式 描述 内 存 地 址 ; 
如 果 CDWO[15:14]-01b 或 者 10b， 这 个 域 解释 为 SGL, HIH SGL 方式 描述 内 存 地 址 
23:16 MetadataPointer (MPTR): 连续 元 数据 缓冲 区 地 址 

15:8 保留 

7:4 Namespaceldentifier (NSID) 

3:0 命令 Dword0 (CDWo0): 所 有 命令 都 用 


主机 在 命令 中 会 告诉 SSD 采 用 何 种 方式 。 具 体 来 说 ， 如 果 命 令 当 中 
DWO[15: 14] 是 0， 就 是 PRP 的 方式 ， 否 则 就 是 SGL 的 方式 。 


SGL 是 什么 ?SGL 是 一 个 数据 结构 ， 用 以 描述 一 段 数 据 空间 ， 这 个 
空间 可 以 是 数据 源 所 在 的 空间 ， 也 可 以 是 数据 目标 空间 。SGL (Scatter 
Gather List) 首先 是 个 List， 是 个 链表 ， 由 一 个 或 者 多 个 SGL 段 

(Segment) 组 成 ， 而 每 个 SGL 段 又 由 一 个 或 者 多 个 SGL 描 述 符 
(Descriptor) 组 成 。SGL 描 述 符 是 SGL 最 基本 的 单元 ， 它 描述 了 一 段 
连续 的 物理 内 存 空间 : 起 始 地 址 + 空间 大 小 。 


每 个 SGL 描 述 符 大 小 是 16 字 节 。 一 块 内 存 空间 ， 可 以 用 来 放 用 户 
数据 ， 也 可 以 用 来 放 SGL 段 ， 根 据 这 上 段 空 间 的 不 同 用 途 ，SGL 摘 述 符 也 
分 几 种 类 型 ， 如 表 6-4 所 示 。 


表 6-4 SGL 描 述 符 类 型 


T TTE 
Oh SGL 数据 块 描述 符 (Data Block Descriptor) SGL 末 有 段 描述 符 (Last Segment Descriptor) 
1h SGL (v fidis f] (Bit Bucket Descriptor) 保留 
2h SGL 段 描述 符 (Segment Descriptor) Fh 商家 指定 


由 表 6-4 可 知 ， 有 4 种 SGL 描 述 符 


-一 种 是 数据 块 朱 述 符 ， 这 个 好 理解 ， 束 是 摘 述 的 这 段 空 间 是 用 户 
数据 空间 。 


-一 种 是 段 描 述 符 ，SGL 不 是 由 SGL 段 组 成 的 链表 吗 ? 既然 是 链 
表 ， 前 面 一 个 段 束 需要 有 个 指针 指向 下 一 个 段 ， 这 个 指针 就 是 SGL 上 段 
接 述 符 ， 它 搬 述 的 古 它 下 一 个 段 所 在 的 空间 。 


特别 地 ， 对 链表 当中 倒数 第 IBS 它 的 SGL 段 描述 各 守 我 们 把 它 
叫 作 SGL 末 段 描 述 符 。 它 本 质 还 是 SGL 段 描述 符 ， 描 述 的 还 是 SGL 段 所 
在 的 空间 。 为 什么 需要 把 倒数 第 二 个 SGL 段 描述 符 单独 的 定义 成 一 种 
类 型 呢 ? 我 认为 是 让 SSD 在 解析 SGL 的 时 候 ， 磁 到 SGL 末 段 描 述 符 ， 就 
知道 链表 快 到 头 了 ， 后 面 只 有 一 个 段 了 。 


.那么 最 后 ，SGL 位 桶 是 什么 ? 它 只 对 主机 读 有 用 ， 用 以 告诉 
\ 要 的 。 好 吧 ， 你 既然 不 要 ， 我 也 
WLA 9 


说 了 这 人 么 多 ， 可 能 有 点 党， 结合 图 6-26， 可 能 会 更 明 Él o 


SGL 描述 符 


Bit 
SGL 链表 ; $542 E139 


第 一 个 SGL & d [ser 描述 符 


SGL 描述 符 
SGL 描述 符 > SGL 数据 块 描述 符 Descriptor 
Byte Type Specific 
sor me | 


SGL 描述 符 | 六 SGL 未 段 描述 符 


SGL 描述 符 3 
a m a J| SGL 描述 符 —— —Á 
最 后 一 个 SGL 段 SGL Jiu Bui f] ! 
SGL 描述 符 Iype Spoeifie 
图 6-26 ”SGL 示 例 

如 果 还 是 晤 ， 看 个 例 季 吧 〈 见 图 6-27) ° 

这 个 例子 中 ， 假 设 主机 需要 从 SSD 中 读 取 13KB 的 数据 ， 其 中 真正 
只 需要 11KB 数 据 ， 这 11KB 的 数据 需要 放 到 3 个 大 小 不 同 的 内 存 中 ， 分 
别 是 : 3KB、4KB 和 4KB ° 


无 论 是 PRP 还 是 SGL， 本 质 都 是 描述 内 存 中 的 一 段 数据 空间 ， 这 段 
数据 空间 在 物理 上 可 能 是 连续 的 ， 也 可 能 是 不 连续 的 。 主 机 在 命令 中 
设置 好 PRP 或 者 SGL ， 和 告诉 SSD 数 据 源 在 内 存 的 什么 位 置 ， 或 者 从 闪存 
上 读 取 的 数据 应 该 放 到 内 存 的 什么 位 置 。 


大 家 也 许 跟 我 有 个 同样 的 疑问 ， 那 就 是 ， 既 然 有 PRP， 为 什么 还 需 
要 SGL? 事实 上 ，NVMe1.0 的 时 候 的 确 只 有 PRP，SGL 是 NVMel.1 之 后 
引入 的 。 那 SGL 和 PRP 本 质 的 区 别 在 哪 ? 图 6-28 道 出 了 真相 :PRP 描述 
的 是 物理 页 ， 而 SGL 可 以 描述 任意 大 小 的 内 存 空间 。 


对 NVMe over PCIe (我 们 目前 讲 的 都 是 NVMe 跑 在 PCIe E) , 
Admin 命 令 只 支持 PRP，1/O 命 令 可 以 支持 PRP 或 者 SGL; 对 NVMe over 
Fabrics， 所 有 命令 只 支持 SGL ° 
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图 6-27 ”SGL 读 示例 


VO 缓冲 区 LO 绥 冲 区 


主机 虚拟 内 存 主机 虚拟 内 存 
主机 物理 内 存 主机 物理 内 存 
PRP 数据 传输 SGL 数据 传输 


图 6-28 PRP vs SGL 


6.5 ”Trace 分 析 

前 面 我 们 已 经 看 到 过 图 6-29 所 示 的 结构 ， 任 何 一 种 计算 机 协议 都 是 
采用 这 种 分 层 结 构 的 ， 下 层 总 是 为 上 层 服务 的 。 有 些 协 议 ， 图 中 所 有 
的 层次 都 有 定义 和 实现 ， 而 有 些 协 议 ， 只 定义 了 其 中 的 几 层 。 然 而 ， 
要 让 一 种 协议 能 工作 ， 它 需要 一 个 完整 的 协议 栈 ，PCIe 定 义 了 下 三 
层 ，NVMe 定 义 了 最 上 层 ， 两 者 一 担 即 合 ， 构 成 一 个 完整 的 主机 与 SSD 


通信 的 协议 。 


数据 链 路 层 


图 6-29 PCIe+NVMe 协 议 栈 


PCle 


PCIe 最 直接 接触 的 是 NVMe 的 事务 层 。 在 NVMe 层 ， 我 们 能 看 到 的 
是 64 字 节 的 命令 、16 字 节 的 命令 返回 状态 ， 以 及 跟 命 令 相 关 的 数据 。 
而 在 PCIe 的 事务 层 ， 我 们 能 看 到 的 是 事务 层 数据 包 (Transaction Layer 
Packet) ， 即 TLP。 还 是 跟 快 递 做 类 比 ， 你 要 寄 东 西 ， 可 能 是 手机 ， 可 
能 是 电脑 ， 不 管 是 什么 ， 你 交 给 快递 小 哥 ， 他 总 是 把 你 要 寄 的 东西 打 
包 ， 快 递 员 看 到 的 就 是 包 襄 ， 他 根本 不 关心 你 里 面 的 内 容 。PCIe 事 务 
层 作 为 NVMe 最 直接 的 服务 者 ， 不 管 你 NVMe 发 给 我 的 是 命令 ， 还 是 命 
令 状 态 ， 或 者 是 用 户 数据 ， 我 统统 帮 你 放 进 包 圳 ， 打 包 后 交 给 下 一 
层 ， 即 数据 链 路 层 继续 处 理 ， 如 图 6-30 所 示 。 
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Device Core Device Core 
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—Configuration Read/Write 


—Completion 


[6-30 “PCIe 两 设备 通信 示意 图 


对 PCIe， 我 们 这 里 只 关注 事务 层 ， 因 为 它 跟 NVMe 的 接触 是 最 直 
接 、 最 亲密 的 。PCIe 事 务 层 传输 的 是 TLP， 它 就 是 个 包 庄 ， 一 般 由 包头 
和 数据 组 成 ， 当 然 也 有 可 能 只 有 包头 没有 数据 。NVMe 传 下 来 的 数据 都 
是 放 在 TLP 的 数据 部 分 的 (Payload) 。 为 实现 不 同 的 目的 ，TLP 可 分 为 
以 下 几 种 类 型 : 


Configuration Read/Write 


"T/O Read/Write 
‘Memory Read/Write 
‘Message 


Completion 


注意 ， 这 个 Completion 跟 NVMe 层 的 Completion 不 是 同一 个 东西 ， 
它们 处 在 不 同 层 。PCIe 层 的 Completion TLP， 是 对 所 有 Non-Posted 型 的 
TLP 的 响应 ， 比 如 一 个 Read TLP, Wife Completion TLP 来 作为 啊 应 。 


NVMe 层 的 Completion， 是 对 每 个 SQ 中 的 命令 ， 都 需要 一 个 
Completion 来 作为 啊 应 。 


在 NVMe 命 令 处 理 过 程 中 ，PCIe 事 务 层 基本 只 用 Memory 
Read/Write TLP 来 为 NVMe 服 务 ， 其 他 类 型 TLP 我 们 可 以 不 用 管 。 


主机 发 送 一 个 Read 命 令 ，PCIe 是 如 何 服务 的 ? 接 下 来 ， 结合 NVMe 
命令 处 理 流程 ， 我 将 带 着 大 家 把 图 6- 31 看 懂 ， 看 看 NVMe 和 PCIe 的 事务 
层 发 生 了 什么 。 


本 = Tom Ec emicat 
[| 006000 | [ 00000001: 4AC.CB000 | [000000080] [128 dwords| 


e iro rem [ 00000001 01451050 | [ 0x00000000 — [0«0023 0«0003 [0«0005 | 1 lil Successful Completion | Generic Command Status] 0 | esp 
128 | [00000001 01A51050 mue 124 000 na |0055 322 024 996 s 
ee 00000000 FEEO400C fus] 2 poroocossez]L— MM 550 v 
— 224 a mem 010.00000 006 00:0 192]| FEEO400C EE mpi 272 us |0055 322 025 122 s 
F7C1101C 1 dword | -398 9 0055. 322 027 394 


E31 A S 的 pCleTrace 图 
”这 张 图 密 密 于 兢 有 的， 到底 是 什么 ?” 别 急 ， 蛋 蛋 带 你 一 步 一 步 把 它 


首先 ， 主 机 准备 了 一 个 Read 命 令 给 SSD ( 见 图 6-32) ° 


NLB PRINFO FUA LR 
Read 0x0003 | 0x0003 | 0x0005 | |128 dwords||00000000:00000000||00000001:4ACCB000|!00000000:00000000||00000000:020E0448||0x0000| 0x0 o JO | 
6-32 NVMe 读 命令 
: ein 


也 许 你 对 NVMe Read 命 令 格 式 不 是 很 清楚 ， 但 从 图 6-32 中 ， 我 们 
还 是 能 得 到 下 面 的 信息 : 主机 需要 从 起 始 LBA 0x20E0448 (SLBA) 上 
读 取 128 个 DWORD (5125€ 35) 的 数据 ， 读 到 哪里 去 呢 ? PRP1 给 出 内 
存 地 址 是 0x14ACCB000。 这 个 命令 放 在 编号 为 3 的 SQ 里 (SQID= -3 
CQ 编号 也 是 3 (CQID-3) 。 我 觉得 知道 这 些 就 够 了 。 相 信 你 看 了 前 面 
章节 的 介绍 ， 刚 才 说 的 这 些 应 该 都 能 仅 。 


当主 机 把 一 个 命令 准备 好 放 到 SQ 后 ， 接 下 来 步骤 是 什么 呢 ? 回想 
一 下 NVMe 命 令 处 理 的 八 个 步骤 。 


第 一 步 : 主机 准备 好 命令 在 SQ; (FER) 
二 步 : 主机 通过 写 SQ 的 Tail DB， 通 知 SSD 来 取 命 令 。 


图 6-33 中 ， 上 层 是 NVMe 层 ， 下 层 是 PCIe 的 事务 层 ， 这 一 层 我 们 看 
到 的 是 TLP。 主 机 想 往 SQ Tail DB 中 写 入 的 值 是 5。PCIe 是 通过 一 个 
Memory Write TLP 来 实现 主机 写 SQ 的 Tail DB 的 。 


Ee 1O m 5 一 3 | Time Delta Time Stamp 

H SQyTDBL Met 

|| 006:00:0 ||0x0003] Lif a 400.000 ns | 0055 . 321 622 570 s 

i ra [E i PER MWr(32) 1st BE|Last BE | EIE 
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图 6-33 ”主机 通过 Memory Write 写 SQ 的 Tail DB 


一 个 主机 ， 下 面 可 能 连接 春 有 十 个 Endpoint， 该 SSD 只 是 其 中 的 一 
个 Endpoint 而 已 ， 那 有 个 问题 ， 主 机 怎样 才能 准确 更 新 该 SSD 控 制 器 中 
的 Tail DBF RIE? 怎么 寻 址 ? 


其 实 ， 在 上 电 的 过 程 中 ， 每 个 Endpoint (在 这 里 是 SSD) 的 内 部 空 
间 都 会 通过 内 存 映 射 (Memory Map). 的 方式 映射 到 主机 的 内 存 
(Memory) 地 址 空间 中 ，SSD 控 制 器 当中 的 寄存 器 会 被 映射 到 主机 的 
内 存 地 址 空间 ， 当 然 也 包括 Tail DBA EA o EILE Memory Write 写 
的 时 候 ，Address 只 需 设 置 该 寄存 器 在 主机 内 存 中 英 射 的 地 址 ， 束 能 准 
确 写 入 该 寄存 器 。 以 图 6-33 为 例 ， 该 Tail DB 寄存 器 应 该 映射 在 主机 内 
存 地 址 0xF7C11018， 所 以 主机 写 DB， 只 需 指 定 这 个 映射 地 址 ， 就 能 准 
确 无 误 地 写 入 对 应 的 寄存 器 中 去 。 


NVMe 处 理 命令 的 第 三 步 : SSD 收 到 通知 ， 去 主机 端的 SQ 中 取 


. #Link & Split Trans 


SSD 是 通过 发 一 个 Memory Read TLP 到 主机 的 SQ 中 取 指 的 。 可 以 
看 到 ，PCIe 需 要 往 主 机 内 存 中 读 取 16 个 DWORD 的 数据 。 为 什么 是 
16DWORD 数 据 ? 因为 每 个 NVMe 命 令 的 大 小 是 64 个 字 节 。 从 图 6-34 
中 ， 我 们 可 以 推断 SQ 3 当前 的 Head 指 向 的 内 存 地 址 是 0x101A41100。 怎 
么 推断 来 的 ? 因为 SSD 总 是 从 主机 的 SQ Head 取 指 的 ， 而 图 6-34 中 ， 
Address 就 是 0x101A41100， 所 以 我 们 有 此 推断 。 
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在 图 6-34 中 ，SSD 往 主机 发 送 了 一 个 Memory Read 的 请 求 ， 主 机 通 
过 Completion 的 方式 把 命令 数据 返回 给 SSD。 和 前 面 的 Memory Write 不 
同 ，Memory Read 中 不 含 数据 ， 只 是 个 请 求 ， 数 据 的 传输 需要 对 方 发 个 
Completion。 像 这 种 需要 对 方 返回 状态 的 TLP 请 求 ， 我 们 叫 它 Non- 
Posted 请 求 。 怎 么 理解 呢 ?Post 有 “邮政 ”的 意思 ， 就 像 你 寄 信 和 一样， 你 
往 邮 箱 中 一 扔 ， 对 方 能 不 能 收 到 ， 就 看 快递 员 的 素养 了 ， 反 正 你 是 把 
信 发 出 去 了 。 像 Memory Write 这 种 请 求 ， 就 是 Posted 请 求 ， 数 据 传 给 对 
方 ， 至 于 对 方 有 没有 人 处理， 我 们 不 在 乎 ， 而 像 Memory Read 这 种 请 求 ， 
它 束 必须 是 Non-Posted 了 ， 因 为 如 果 对 方 不 响应 (不 返回 数据 ) 给 我 ， 
Memory Read 就 是 失败 的 。 所 以 ， 每 个 Memory Read 请 求 都 有 相应 的 
Completion ? 


O NVMe 处 理 命令 的 第 四 步 : SSD 执 行 读 命令 ， 把 数据 从 内 存 中 读 到 
缓存 中 ， 然 后 把 数据 传 给 主机 。 


数据 从 闪存 中 读 到 缓存 中 ， 这 是 SSD 内 部 的 操作 ， 跟 PCIe 和 NVMe 
没有 任何 关系 ， 因 此 ， 我 们 捕捉 不 到 SSD 的 这 个 行为 。 在 PCIe 接 口上 ， 
我 们 只 能 捕捉 到 SSD 把 数据 传 给 主机 的 过 程 。 


如 图 6-35 所 示 ，SSD 通 过 Memory Write TLP 把 主机 命令 所 需 的 128 
个 DWORD 数 据 写 入 主机 命令 所 要 求 的 内 存 中 去 。SSD 每 次 写 入 32 个 
DWORD, 一 共 写 了 4 次 。 正 如 之 前 所 说 ， 我 们 没有 看 到 Completion 
TLP， 合 理 。 


=e 006:00:0_| |0x0003 | 0x0005 | | 00000001:4ACCB000 [cmo Pre my 00000080 
m 
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1527 011:00000 32 006:00:0 15 |[00000001:4ACCBO000]| 1111 | 1111 


x 1528 011:00000 32 006:00:0 16 ||00000001:4ACCBO80 32 ZTE 
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5 Last BE Data 

x 1529 011:00000 006:00:0 17 | [00000001:4ACCB100 32 dwords 
E E 

x 1530 011:00000 006:00:0 18 |[00000001:4ACCB180 32 Lm rds 


SSD— H 30D BIA GEL, UA T RBEETERB, BAP 
是 : SSD 往 主机 的 CQ 中 返回 状态 。 


如 图 6-36 所 示 ，SSD 是 通过 Memory Write TLP 把 16 个 字 节 的 命令 完 
成 状态 信息 写 入 主机 的 CQ 中 。 
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图 6-36 EEC 


SSD 往 主机 的 CQ 中 写 入 后 ， 第 六 步 就 是 : SSD 采 用 中 上 断 的 方式 告 
诉 主机 去 处 理 CQ ° 


SSD 中 断 主 机 ，NVMe/PCIe 有 四 种 方式 : Pin-Based Interrupt ^ 
Single Message MSI ` Multiple Message MSI 和 MSI-X AAT , Rf 
的 可 以 参看 NVMe V1.2 协 议 规范 第 171 页 ， 有 详细 介绍 ， 有 兴趣 的 可 以 
去 看 看 ) 。 在 图 6-37 中 ， 这 个 例子 中 使 用 的 是 MSI-X 中 断 方式 。 跟 传统 
的 中 断 不 一 样 ， 它 不 是 通过 硬件 引 脚 的 方式 ， E LM 
一 样 ， 通 过 PCIe 打 包 把 中 断 信息 告知 主机 。 图 6-37 告 诉 我 们 ，SSD 还 
通过 Memory Write TLP 把 中 断 信息 告知 主机 ， 这 个 中 断 信 息 长 度 是 
1DWORD ° 
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NVM Tim 
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图 6-37 SSD 通 mm Write 通知 主机 处 理 CQ 


主机 收 到 中 断后 ， 第 七 步 就 是 : 主机 处 理 相 应 的 CQ。 这 步 是 在 主 
机 端 内 部 发 生 的 事情 ， 在 Trace 上 我 们 捕捉 不 到 这 个 处 理 过 程 。 


最 后 一 步 ， 主 机 处 理 完 相 应 的 CQ 后 ， 需 要 更 新 SSD 端 的 CQ Head 
DB， CE 


跟前 面 一 样 ， 主 机 还 是 通过 Memory Write TLP 更 新 SSD 端 的 CQ 
Head DB， 如 图 6-38 所 示 。 


NVM Be esanaia MEE unm Time Stamp 
| 006:00:0_|[0x0003] d 0x0006 8 3: | 0055 . 322 027 394 s 
ink Tra pÊ [1st BE |Last BE] 
658 i 1701 010:00000 000:00:0 F7C1101C 1111 DIN 1 dword Packet #2751 


Ke-38 主机 通过 Memory Wie CQ 的 Head DB 


通过 PCIe Trace， 我 们 从 PCIe 的 事务 层 看 到 了 一 个 NVMe Read 命 令 
是 怎么 处 理 的 ， 看 到 事务 层 ARGUI) Memory Write 和 Memory Read 


TLP 传 输 NVMe 命 令 、 数 据 和 状态 等 信息 ， 看 到 了 NVMe 命 令 处 理 的 八 
个 步骤 。 


上 面 举 的 是 NVMe 读 命令 处 理 ， 其 他 命令 处 理 过 程 其 实 差 不 多 ， 这 
EPA o 


最 后 ， 我 再 贴 出 完整 的 Trace， 相 信 ， 也 希望 大 家 不 会 再 有 一 团 乱 
麻 的 感觉 〈( 见 图 6-39) ° 


L Read — — M0x0003/0x0003|040005][128 dwords [2000000 00000008 [o3000091-44cc0o9 [0000099 00000000 [00900900 recense [oxoo0o xD | 0 To IM “m 
EH - 5 = MÀ Emm 


EET 
一 Te ————M— 
| 00100000 | 16 Jò 006000  |2 |[0000000101A41100)| 1111 | 111 | ket 0372 720 000 ns [0055 321622 970 
Jal- ERE 7 


EmA [00000001 01451050 | ME 0100000000 1010023100003 Tox000sT il Succesetut Comprenon [Genenc Command Starvs TO | 0] 


124 
[ paea ET aea e 
Pt 


E39 NVMe 读 命令 A Trace 
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接 下 来 ， 我 们 要 说 的 话题 就 是 NVMe 中 端 到 端的 数据 保护 功能 ， 看 
看 NVMe 中 的 傈 镖 是 怎样 为 我 们 的 数据 保罗 护航 的 。 


端 到 端 : 一 端 是 主机 的 内 存 空间 ， 一 端 是 SSD 的 内 存 空间 。 


我 们 需要 保护 的 是 用 户 数据 。 主 机 与 SSD 之 间 ， 数 据 传输 的 最 小 单 
元 是 逻辑 块 (Logical Block, LB) ， 每 个 逻辑 块 大 小 可 以 是 
512/1024/2048/4096 等 字 节 ， 主 机 在 格式 化 SSD 的 上 时候， 逻辑 块 大 小 就 
确定 了 ， 之 后 两 者 就 按 这 个 逻辑 块 大 小 进行 数据 交互 。 


数据 从 主机 到 NVM (Non-Volatile Memory， 目 前 一 般 是 内 存 ， 后 
面 我 就 用 闪存 来 代表 NVM) ， 首 先 要 经 过 PCIe 传 输 到 SSD 的 控制 器 ， 
然后 控制 絮 把 数据 写 入 内 存 ， 反 过 来 ， 主 机 想 从 闪存 上 读 取 数据 ， 百 
先 要 由 SSD 控 制 器 从 内存 上 获得 数据 ， 然 后 经 过 PCIe 把 数据 传送 给 主 
机 ， 如 图 6-40 所 示 。 


PCle SSD 


图 6-40 ”主机 与 SSD 之 间 传 输 数 据 


主机 与 SSD 之 间 ， 数 据 在 PCIe 上 传输 的 时 候 ， 由 于 信道 噪声 的 存在 
(说 白 了 就 是 存在 干扰 ) ， 可 能 导致 数据 出 错 ; 另外 ， 在 SSD 内 部 ， 控 
制 器 与 内 存 之 间 ， 数 据 也 可 能 发 生 错误 。 为 确保 主机 与 内 存 之 间 数 据 
的 完整 性 ， 即 主机 写 入 内 存 的 数据 与 最 初 主机 写 的 数据 一 致 ， 以 及 主 
机 读 到 的 数据 与 最 初 从 内 存 上 读 上 来 的 数据 一 致 ，NVMe 近 供 了 一 个 端 
到 端的 数据 保护 功能 。 


除了 逻辑 块 数据 本 喘 ，NVMe 还 允许 每 个 逻辑 块 市 个 助理 ， 叫 作 元 
数据 (Meta Data) 。 这 个 助理 的 职责 ，NVMe 虽 然 没 有 明确 要 求 ， 但 
如 果 数 据 需要 保护 ， 这 个 助理 就 必须 能 充当 保镖 的 角色 。 


元 数据 有 两 种 存在 方式 ， 一 种 是 作为 逻辑 块 数据 的 扩展 ， 和 逻辑 
块 数据 放 一 起 传输 ， 这 是 贴身 保镖 ( 见 图 6-41) 。 


逻辑 块 数据 iP HEUS 
Mi ngn : M^ 了 UP HI M^, -| 1 EN eo doe JM. 
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数据 缓冲 区 (PRP1 & PRP2) 
图 6-41 元 数据 和 逻辑 块 数据 放 一 起 传输 


另外 一 种 方式 就 是 逻辑 块 数据 和 元 数据 分 别传 输 。 虽 不 是 贴身 保 
D 但 保镖 在 附近 时 刻 注 意 着 主人 的 安全 ， 属 于 非 贴身 保镖 〈 见 图 6- 
42) 。 


iie | 逻辑 块 数据 | 逻辑 块 数据 
n 的 元 数据 |n+1 的 元 数据 |n+2 的 元 数据 


元 数据 缓冲 区 


逻辑 块 数据 n ERR nH o2 RUBUS n+2 


数据 缓冲 区 (PRP1 & PRP2) 
图 6-42 “元 数据 和 逻辑 块 数据 分 开 传 输 


NVMe over Fabrics 只 文 持 元 数据 和 逻辑 数据 放 一 起 ， 即 贴 刁 保 
护 。 


贴 吴 保护 与 否 ， 我 们 不 关心 形式 ， 我 们 只 关心 元 数据 是 如 何 你 护 
Kidd o NVMe K BEAT ERRES DR ERBU Sr P BOB dE 
刀锋 6-43) ° 
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图 6-43 ”数据 保护 信息 格式 
其 中 : 


-Guard: 16 比 特 的 CRC (Cyclic Redundancy Check) ， 它 是 逻辑 块 
数据 算出 来 的 ; 


-Application Tag: 这 块 区 域 对 控制 右 不 可 见 ， 为 主机 所 用 ; 


Reference Tag: 将 用 户 数据 和 地 址 (LBA) 相关 联 ， 防 止 数据 错 


CRC 校 验 能 够 检测 出 数据 是 否 有 错 ， 后 者 则 是 保证 数据 不 会 出 现 
张冠李戴 的 问题 ， 比 如 我 读 LBA x， 结 果 却 读 到 了 LBA y 的 数据 。 
NVMe 效 据 保护 机 制 能 发 现 这 类 问题 。 


配 了 保镖 的 数据 如 图 6-44 所 示 (以 512 字 市 的 数据 块 为 例 ) 。 


User Data ( 512 Bytes[example]) 


Guard ( 2 Bytes) 


Application Tag ( 2 Bytes) 


Reference Tag ( 4 Bytes) 


图 6-44 市 有 保护 信息 的 逻辑 数据 块 
在 主机 与 SSD 数 据 传输 过 程 中 ，NVMe 可 以 让 每 个 逻辑 块 数据 都 带 
上 保镖 ， 可 以 让 它们 不 市 保镖 ， 也 可 以 在 某 个 治安 差 的 地 方 把 保镖 市 
上 ， 然 后 在 治安 环境 好 的 地 方 不 用 保镖 。 


主机 向 SSD 写 入 数据 ， 不 带 保 镖 ( 见 图 6-45) e 


PCle SSD 
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图 6-45 不 市 数据 保护 信息 


什么 情况 下 可 以 不 市 保镖 ? 


如 有 果 你 是 普通 人 ， 完 全 没有 必要 配 保镖 ， 原 因 有 : 人 你 请 不 起 保 
Wu 人 O 谁 有 空 来 伤害 你 呢 ? ORFA o 


如 有 果 是 无 关 紧 要 的 数据 《如 小 电影 ) ， 完 全 没有 必要 进行 端 到 端 
的 保护 ， 毕 竟 数 据 保护 需要 传输 额外 的 数据 (每 个 逻辑 数据 块 需要 至 
少 额 外 8 字 世 的 数据 保护 信息 ， 有 效 市 宽 减 少 )， 还 需要 SSD 做 额外 的 
数据 完整 性 校 验 ( 耗 时 ， 性 能 变 差 )。 最 关键 的 是 在 PCIe 通 道上 ， 本 


来 就 有 LCRC 的 保护 ， 有 必要 的 话 还 可 以 使 能 ECRC， 这 个 跟 NVMe 关 
系 不 大 ， 就 不 展开 了 。 


主机 向 SSD 写 入 数据 ， 全 程 之 上 你 镖 的 情况 ( 见 图 6-46) ° 
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图 6-46 ”市 数据 保护 信息 数据 写 流程 
图 6-46 中 的 PI (Protection Information, (RI RR) 就 是 传说 中 的 保 


主机 数据 通过 PCIe 传 输 到 SSD 控 制 絮 时 ，SSD 控 制 絮 会 重新 计算 逻 
辑 块 数据 的 CRC， 与 保镖 的 CRC 比 较 ， 如 果 两 者 匹配 ， 说 明 数 据 传输 
Eus 否则 ， 数 据 就 是 有 问题 的 ， 这 个 时 候 ，SSD 控 制 器 就 会 
ZH H? 


除了 CRC 校 验 ， 还 要 检测 有 没有 张冠李戴 的 问题 ， 通 过 检测 
Reference Tag， 看 看 这 个 没有 CRC 问 题 的 数据 是 不 是 该 主机 写 命令 对 应 
的 数据 ， 如 果 不 匹 配 ， 同 样 需要 癌 主机 报错 。 


如 琳 数 据 检 测 没 有 问题 ，SSD 控 制 絮 会 把 逻辑 块 数据 和 PI 一 同 写 入 
oo 在 读 的 时 候 有 意义 ， 如 
6-47 所 示 。 
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图 6-47 ” 带 数 据 保护 信息 数据 读 流程 


SSD 控 制 紫 读 内 存 的 时 候 ， 会 对 读 上 来 的 数据 进行 CRC 校 验 ， 如 末 
写 入 的 时 候 市 有 PI， 这 个 时 候 束 能 检测 出 读 上 来 的 数据 是 否 正确 ， 从 


而 决定 这 个 数据 要 不 要 传 给 主机 。 有 人 要 说 ， 对 内 存 来 说 ， 数 据 不 是 
受 ECC 保 护 吗 ? 为 什么 还 要 额外 进行 数据 校 验 ? 没 错 ， 写 入 闪存 中 的 
数据 是 受 ECC 保 护 ， 这 个 没有 问题 ， 但 在 SSD 内 部 ， 数 据 从 控制 器 到 内 
存 之 间 ， 一 般 都 要 经 过 DRAM 或 者 SRAM， 在 之 前 SSD 控 制 器 写 入 闪 
存 ， 或 者 这 个 时 候 从 闪存 读数 据 到 SSD 控 制 器 ， 可 能 就 会 发 生 比 特 翻 转 
之 类 的 小 概率 事件 ， 从 而 导致 数据 不 正确 。 如 果 在 NVMe 层 再 做 个 CRC 
保护 ， 这 类 数据 错误 就 能 被 发 现 了 。 

除了 数据 在 SSD 内 发 生 反 转 ， 由 于 固件 问题 或 者 别 的 原因 ， 还 是 会 
出 现 数据 张冠李戴 的 问题 : 数据 虽然 没有 CRC 错 误 ， 但 是 它 不 是 我 们 
想 要 的 数据 。 因 此 ， 还 需要 做 Reference Tag 检 测 。 


SSD 控 制 絮 通过 PCle 把 数据 传 给 主机 ， 主 机 端 也 会 对 数据 进行 校 
验 ， 看 SSD 返 回 的 数据 是 否 有 人 错 。 


主机 往 SSD 写 入 数据 ， 半 程 市 保镖 的 情况 〈 见 图 6-48) ° 


PCle SSD 


控制 器 | 
插入 保护 | DERI 


信息 (PI) 
图 6-48 SSD 内 部 加 入 数据 保护 信息 


这 种 情况 ， 主 机 与 控制 夯 问 之 间 生 没有 数据 保护 的 ， 因 为 PCIe 已 
经 能 提供 数据 完整 性 保证 了 。 但 在 SSD 内 部 ， 控 制 器 到 内 存 之 间 ， 由 于 
乱七八糟 的 原因 (数据 反 转 ，LBA 数 据 不 匹配 ，， 存 在 数据 错误 的 可 
能 ，NVMe 要 求 SSD 欣 制 套 在 把 数据 写 入 内 存 前 ， 计 算 好 数据 的 PIT， 然 
后 把 数据 和 PI 一 同 写 入 闪存 。 


SSD 探 制 紫 读 内 存 的 时 候 ， 会 对 读 上 来 的 数据 进行 PI 校 验 ， 如 来 没 
有 问题 ， 剥 除 PI， 然 后 把 逻辑 块 数据 返回 给 主机 ;， 如 末 校 验 失 败 ， 说 
明 数 据 存在 问题 ，SSD 需 要 向 主机 报错 ， 如 图 6-49 所 示 。 
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图 6-49 ”SSD 内 部 根据 数据 保护 信息 验证 数据 


数据 端 到 端 保 护 是 NVMe 的 一 个 特色 ， 其 本 质 就 是 在 数据 块 中 加 入 
CRC 和 数据 块 对 应 的 LBA 等 多余 信息 ，SSD 控 制 絮 或 者 主机 端 利用 这 些 
信息 进行 数据 校 验 ， 然 后 根据 校 验 结果 执行 相应 的 操作 。 加 入 这 些 检 
错 信息 的 好 处 是 能 让 主机 与 SSD 控 制 器 及 时 发 现 数据 错误 ， 副作用 就 


AE 


1) 每 个 数据 块 需要 额外 的 至 少 8 字 节 的 数据 保护 信息 ， 有 效 带宽 
减少 : 数据 块 越 小 ,市 宽 影 响 越 大 。 


2) SSD 控 制 右 需要 做 数据 校 验 ， 影 响 性 能 。 


但 是 ， 我 觉得 这 二 个 副作用 的 影响 是 微乎其微 的 ， 跟 数据 安全 性 
相 比 ， 这 又 算得 了 什么 呢 ? 


6.7 Namespace 
什么 是 Namespace 〈 以 下 简称 NS) ? 


一 个 NVMe SSD 主 要 由 SSD 探 制 右 、 闪 存 空 间 和 PCIe 接 口 组 成 。 如 
果 把 内 存 空间 划分 成 若干 个 独立 的 逻辑 空间 ， 每 个 空间 逻辑 块 地 址 
(LBA) 范围 是 0 到 N-1 (N 是 逻辑 空间 大 小 ) ， 这 样 划 分 出 来 的 每 一 个 
逻辑 空间 我 们 就 叫 作 NS。 对 SATA SSD 来 说 ， 一 个 闪存 空间 只 对 应 着 一 
个 逻辑 空间 ， 与 之 不 同 的 是 ，NVMe SSD 可 以 是 一 个 闪存 空间 对 应 多 个 
逻辑 空间 。 


每 个 NS 都 有 一 个 名 称 与 ID， 如 同 每 个 人 都 有 名 字 和 号 份 证 号 码 ， 
ID 十 独一无二 的 ， 系 统 驶 是 通过 NS 的 ID 来 区 分 不 同 的 NS。 


PCIe im O 


如 图 6-50 所 示 ， 整 个 闪存 空间 划分 成 两 个 NS， 名 字 分 别 是 NS A 和 
NS B， 对 应 的 NS ID 分 别 是 1 和 2。 如 果 NS A 大 小 是 M (以 逻辑 块 大 小 
为 单位 ) ，NS B 大 小 是 N， 则 它们 的 逻辑 地 址 空间 分 别 是 0 到 M-1 和 0 到 
N-1。 主 机 读 写 SSD， 都 是 要 在 命令 中 指定 读 写 的 是 哪个 NS 中 的 逻辑 


块 。 原 因 很 简单 ， 如 果 不 指 定 NS， 对 同一 个 LBA 来 说 ， 假 设 就 是 LBA 
0，SSD 根 本 就 不 知道 去 读 或 者 写 哪 里 ， 因 为 有 两 个 逻辑 空间 ， 每 个 逻 
辑 空间 都 有 LBA 0 。 


如 同 我 只 说 德州 ， 如 末 不 告诉 你 是 哪个 国家 的 ， 你 怎 知 道 我 说 的 
征 类 国 德州 还 是 山东 德州 。 


一 个 NVMe 命 令 一 共 64 字 广 ， 其 中 Byte[7: 4 指定 了 要 访问 的 NS， 
如 表 6-5 所 示 。 


表 6-5 NVMe 命 令 中 NS 域 


字 节 描述 


63:60 命令 Dword15 (CDW15): 命令 相关 
59:56 命令 Dword14 (CDW14): 命令 相关 
55:52 命令 Dword13 (CDW13): 命令 相关 
51:48 命令 Dword12 (CDW12): 命令 相关 
47:44 命令 Dword11 (CDW11): 命令 相关 
43:40 命令 Dword10 (CDW10): 命令 相关 
39:32 PRP Entry 2 (PRP2 ): 命令 中 第 二 个 地 址 条 目 (如 果 有 用 到 的 话 ) 
31:24 PRP Entry 1 (PRP1): 命令 中 第 一 个 地 址 条 目 
23:16 MetadataPointer (MPTR ): 连续 元 数据 缓冲 区 地 址 
( 续 ) 
字 节 描述 
15:8 保留 
7:4 NamespaceIdentifier (NSID ) 
3:0 命令 Dword0 (CDW0): 所 有 命令 都 用 


对 每 个 NS 来 说 ， 都 有 一 个 4KB 大 小 的 数据 结构 来 换 述 它 。 该 数据 
结构 描述 了 该 NS 的 大 小 ， 整 个 空间 已 经 号 了 多 少 ， 每 个 LBA 的 大 小 ， 
端 到 端 数据 保护 相关 设置 ， 以 及 该 NS 是 属于 某 个 控制 器 还 是 儿 个 控制 
器 可 以 共享 等 。 


NS 由 主机 创建 和 管理 ， 每 个 创建 好 的 NS， 从 主机 操作 系统 角度 看 
来 ， 就 是 一 个 独立 的 磁盘 ， 用 户 可 在 每 个 NS 做 分 区 等 操作 。 


下 例 中 ， 整 个 内 存 空间 划分 成 两 个 NS，NS A 和 NS B， 操 作 系 统 看 
到 两 个 完全 独立 的 磁盘 ， 如 图 6-51 所 示 。 
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Kle6-51 NVMe 子 系统 中 有 了 两 个 NS 


每 个 NS 是 独立 的 ， 逻 辑 块 大 小 可 以 不 同 ， 端 到 端 数据 保护 配置 也 
可 以 不 同 : 你 可 以 让 一 个 NS 使 用 保镖 ,为 一 个 NS 不 使 用 保镖 ， 表 一 个 
NS 半 程 使 用 保镖 (Dlo.6 T) 。 


其 实 ，NS 更 多 是 应 用 在 企业 级 ， 可 以 根据 客户 不 同 需求 创建 不 同 
特征 的 NS， 也 就 是 在 一 个 SSD 上 创建 出 大 干 个 不 同 功能 特征 的 磁盘 
(NS) 供 不 同 客户 使 用 。 


NS 的 另外 一 个 重要 使 用 场合 是 : SR-IOV 。 


什么 是 SR-IOV? 英文 全 称 为 Single Root-IO Virtualization, SR-IOV 
技术 允许 在 虚拟 机 之 间 高 效 共享 PCIe 设 备 ， 并 且 它 是 在 硬件 中 实现 
的 ， 可 以 获得 能 够 与 本 机 性 能 媲美 的 IO 性 能 。 单 个 IO 资 源 (单个 
SSD) 可 由 许多 虚拟 机 共享 。 共 享 的 设备 将 提供 专用 的 资源 ， 并 且 还 使 
用 共享 的 通用 资源 。 这 样 ， 每 个 虚拟 机 都 可 访问 唯一 的 资源 。 


如 图 6-52 所 示 ， 该 SSD 作 为 PCIe 的 一 个 Endpoint， 实 现 了 一 个 物理 
功能 (Physical Function, PF) ， 有 4 个 虚拟 功能 (Virtual Function, 
VF) 关联 该 PFE。 每 个 VE， 都 有 上 自己 独 享 的 NS， 还 有 公共 的 NS (NS 
E) 。 此 功能 使 得 虚拟 功能 可 以 共享 物理 设备 ， 并 在 没有 CPU 和 虚拟 机 


管理 程序 软件 开销 的 情况 下 执行 IO。 关 于 SR-IOV 的 更 多 知识 ， 这 里 就 
不 展开 了 ， 我 们 只 需 知道 NYMe 中 的 NS 有 用 武之 地 就 可 以 。 
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图 6-52 SR-IOV 


对 一 个 NVMe 子 系统 来 说 ， 除 了 包含 春 干 个 NS， 还 可 以 有 知 干 个 
SSD 控 制 器 。 注 意 ， 这 里 不 是 说 一 个 SSD 控 制 器 有 多 个 CPU， 而 是 说 一 
个 SSD 有 几 个 实现 了 NVMe 功 能 的 控制 器 。 


如 图 6-53 所 示 ， 一 个 NVMe 子 系统 包含 了 两 个 控制 大 ， 分 别 实现 不 
同 功 能 (也 可 以 是 相同 功能 。 整 个 内 存 空间 分 成 3 个 NS， 其 中 NS A 
由 控制 器 0 (左边 ) 独 享 ，NS C 由 控制 器 1 (右边 ) 独 享 ， 而 NS B 是 两 
EHE o 独 吾 的 意思 是 说 只 4A 有 与 之 关联 的 控制 器 才能 访问 该 NS， 别 的 
控制 器 是 不 能 对 其 进行 访问 的 ， 图 6-53 中 控制 器 0 是 不 能 对 NS C 进 行 读 
写 操作 的 ， 同样 控制 器 1 也 不 能 访问 NS A; 共享 的 意思 是 说 ， 该 NS 
(这 里 是 NS B) k 同 访问 的 。 对 共享 NS， 由 于 几 
个 控制 器 都 可 以 对 它 进 行 访问 ， 所 以 要 求 每 个 控制 器 对 该 NS 的 访问 都 
是 原子 操作 ， 从 而 避免 同步 问题 。 
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图 6-53 NVMe 子 系统 中 有 两 个 控制 器 


事实 上 ， 一 个 NVMe 子 系统 ， 除 了 可 以 有 符 干 个 NS， 除 了 可 以 有 
ATOE, A MNAE FACe o 


与 前 面 的 架构 不 一 样 ， 图 6-54 的 架构 是 每 一 个 控制 器 都 有 自己 的 
PCIe 接 口 ， 而 不 是 两 者 共享 一 个 。Dual Port， 双 端口 ， 在 SATA SSD 上 
没有 见 过 吧 。 这 其 个 接口 往 上 有 有 可 能 连 着 同一 个 主机 ， 也 可 能 连 着 不 
同 的 主机 。 现 在 能 提供 Dual PCIe Port 的 SSD 接 口 只 有 SFF-8639 (关于 
这 个 接口 ， 可 参看 www.ssdfans.com 站 内 文章 《SFF-8639 接 口 来 
205 ) ， 也 叫 U.2， 它 支持 标准 的 NVMe 协 议和 Dual-Port 。 
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图 6-54” 双 控制 器 和 双 端 口 NVMe 子 系统 
图 6-55 是 两 个 PCIe 接 口 连 着 一 个 主机 的 情况 。 
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图 6-55” 双 端口 子 系统 连接 主机 
为 什么 要 这 么 玩 ? 


我 认为 ， 一 方面 ， 主 机 访问 SSD， 可 以 双管齐下 ， 性 能 可 能 更 好 
点 。 不 过 对 访问 NS B 来 说 ， 同 一 时 刻 只 能 被 一 个 控制 侨 访 问 ， 双 管 齐 
下 文 如 何 。 考 虑 到 还 可 以 同时 操作 NS A 和 NS C， 人 性 能 或 多 或 少 会 有 所 


提升 

我 觉得 ， 更 重要 的 是 ， 这 种 双 接 口 元 余 设计 可 以 提升 系统 可 靠 
性 。 假 设 PCIe A 接 口 出 现 问题 ， 这 个 时 候 主 机 可 以 通过 PCIe BEEK 
接 ， 继 续 对 NS B 进 行 访 问 。 当 然 了 ，NS A 是 无 法 访问 了 。 


如 条 主 机 突然 死机 怎么 办 ? 在 一 些 很 可 刻 的 场景 下 是 不 允许 主机 
宕 机 的 。 但 是 ， 是 电脑 总 有 死机 的 时 候 ， 怎 么 办 ? 最 直接 有 效 的 办 法 


还 是 采用 元 余 容错 策略 : SSD 有 两 个 控制 器 ， 有 两 个 PCIe 接 口 ， 那 么 我 
主机 也 措 个 双 主 机 ， 一 个 主机 挂 了 ， 由 另 一 个 主机 接管 任务 ， 继 续 执 
行 ， 如 图 6-56 所 示 。 
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图 6-56” 双 端口 双 主 机 系统 
我 们 来 看 一 个 双 端 口 的 真实 产品 。 


2015 年 ，OCZ 发 布 了 业界 第 一 个 具有 双 端 口 的 PCIe NVMe 的 SSD: 
Z-Drive 6000 系 列 〈 见 图 6-57) ° 


PCI Express 2900 MB/s 
Gen 3.0 x4 Seq. Read 


800GB, 1.6TB n 1900 MB/s 
and 3.2TB z Seq. Write 
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Kl6-57 Ww OSSD: Z-Drive 6000 


物理 上 上， 这些 SSD 都 有 两 个 PCIe 端 口 ， 但 可 以 通过 不 同 的 固件 ， 
现 单 端口 和 双 端 口 功 能 。 


每 个 端口 可 以 连接 独立 的 主机 ， 主 机 端 有 两 个 独立 的 数据 通道 
(Data Path) 对 闪存 空间 进行 访问 ， 如 果 其 中 一 个 数据 通道 发 生 故 
障 ，OCZ 的 主机 热 交 换 (Hot-swap) 技术 能 让 另外 一 个 主机 无 颖 低 延 

时 地 接管 任务 。 有 些 应 用 ， 比 如 银行 金融 系统 、 在 线 交 易 处 理 
(OnLine Transaction Processing，OLTP) 、 在 线 分 析 处 理 (OnLine 
Analytical Processing, OLAP) ` 高 性 能 计算 (High Performance 
Computing, HPC) 、 大 数据 等 ， 对 系统 可 靠 性 和 实时 性 要 求 非常 高 ， 
这 个 时 候 ， 带 有 双 端 口 的 SSD 吕 能 派 上 用 场 了 ， 如 图 6-58 所 示 。 
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图 6-58 Wim LLXEBOXUIEHUR AE 


带 有 双 端 口 的 这 种 SSD， 主 要 是 面 癌 企业 用 户 ， 特 别 是 上 面 提 到 的 
Wulf e 


多 NS， 多 控制 器 ， 多 PCIe 接 口 ， 给 NVMe SSD 开 发 者 以 及 存储 架 
构 师 带 来 很 大 的 发 挥 空间 。 给 不 同 的 NS 配置 不 同 的 数据 保护 机 制 ， 或 
者 虚拟 化 ， 或 者 使 用 元 余 容 错 提 高 系统 可 靠 性 ， 抑 或 别 的 设计 ，NVMe 
提供 了 这 些 基础 设施 ， 怎 么 玩 就 看 你 的 想象 力 了 。 


6.8 NVMe over Fabrics 


ik: ZK-BNVMe over Fabrics 部 分 的 内 容 来 目 MemBlaze 的 路 回 峰 先 
生 ，SSDFans 获 得 其 授权 收录 其 文章 ， 感 谢 路 癌 峰 先生 对 我 们 的 信任 。 


NVMe 是 针对 新 型 的 Non-Volatile Memory 〈 比 如 闪存 、3D XPoint 
等 ) 而 量 身 定制 的 ， 对 于 今天 的 应 用 来 说 ， 基 于 NVMe 协 议 的 SSD 可 以 
提供 对 性 能 、 延 迟 、IO 协 议 栈 开销 的 完美 优化 。 一 个 SSD 高 达 几 十 万 
甚至 上 百 万 IOPS 的 随机 读 写 性 能 可 以 使 单机 应 用 用 户 体验 飞速 提升 ， 
但 往往 单机 应 用 没 法 充分 地 填 满 这 么 多 市 师 。 


NVMe SSD 目 前 的 主要 应 用 之 一 是 全 内 存 阵列 ， 但 是 PCIe 接 口 并 不 
适合 存储 设备 的 横向 扩展 (Scale Out) : 想象 一 下 如 何 把 几 百 块 NVMe 
SSD 通 过 PCIe 接 入 一 个 存储 池 中 。 


按照 传统 的 模式 ， 将 少量 的 NVMe SSD 组 成 存储 节点 ， 再 通过 
iSCSI 连接 到 前 端 ， 如 图 6-59 所 示 。 


ISCSI 
SMB3 FC 


iSCSI 
ISER 
SPR FC 


图 6-59 ”传统 存储 连接 方式 


这 样 的 方式 带 来 一 个 问题 NVMe 未 来 的 小 目标 是 时 延 
(Latency) 做 到 10ps 以 内 ， 而 iSCSI 协 议 (或 者 :SER、SRP) 的 时 延 是 
100hs， 如 图 6-60 所 示 。 
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Kle-60 ”存储 设备 时 延 的 进化 
把 一 辆 法 拉 利 放 到 北京 早 高 峰 的 西直门 立交 桥 上 ， 你 什么 意思 ? 


NVMe over Fabrics 就 是 为 了 解决 这 个 问题 而 生 〈 见 图 6-61) 。 
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图 6-61 NVMe over Fabrics (A) 与 传统 方式 协议 栈 C) 比较 


NVMe over Fabrics 协 议定 义 了 使 用 各 种 通用 的 事务 层 协议 来 实现 
NVMe 功 能 的 方式 。 在 协议 中 所 指 的 事务 层 包 括 了 RDMA、 


FibreChannel ` PCIe Fabrics 等 实现 方式 。 


由 于 NVMe over Fabrics 协 议 的 这 种 灵活 性 ， 它 可 以 非常 方便 地 生 
长 在 各 个 主流 的 事务 层 协议 中 。 不 过 由 于 不 同 的 互联 协议 本 号 的 特点 
不 同 ， 因 此 基于 各 种 协议 的 NVMe over Fabrics 的 具体 实现 都 是 不 同 
的 。 一 些 协议 本 身 的 协议 开销 较 大 ， 男 一 些 需 要 专用 的 硬件 网 络 设 
备 ， 客 观 上 限制 了 NVMe over Fabrics 协 议 在 其 中 的 推广 。 


虽然 有 众多 可 以 选择 的 互联 方式 ， 但 这 些 互 联 方式 按照 接口 类 型 
可 分 成 三 类 : NÆ (Memory) 型 接口 、 消 息 (Message) 型 接口 和 消 
En (Memory&Message) 型 接口 。 相 应 的 互联 类 型 和 例子 如 图 
6-62 甩 不 。 


在 这 些 众多 的 事务 层 协 议 中 ， 重 点 介绍 一 FRDMA 。RDMA 
(Remote Direct Memory Access， 远 程 DMA) 通过 网 络 把 数据 直接 传 
入 计算 机 的 存储 区 ， 降 低 了 CPU 的 处 理工 作 量 。 当 一 个 应 用 执行 
RDMA 读 或 写 请 求 时 ， 不 执行 任何 数据 复制 。 在 不 需要 任何 内 核 内 存 
参与 的 条 件 下 ，RDMA 请 求 会 直接 从 运行 在 用 户 空间 的 应 用 中 发 送 到 
本 地 网 卡 ， 然 后 经 过 网 络 传送 到 远程 网 卡 ， 如 图 6-63 所 示 。 


NVMe 
传输 层 


图 6-62 存储 互联 方式 的 分 类 


图 6-63 ”用 RDMA 实 现 数据 传输 
RDMA 对 于 NVMe over Fabrics 协 议 的 便利 性 体现 在 以 下 几 个 方 


-提供 了 低 延 迟 、 低 抖动 和 低 CPU 使 用 率 的 事务 层 协议 ; 
最 大 限度 利用 硬件 加 速 ， 避 免 软件 协议 栈 的 开销 ; 


人 


RDMA 设 计 初 袁 殉 是 为 了 高 性 能 、 低 延迟 访问 远 端 节 点 的 ， 并 且 


它 的 语义 非常 类 似 本 地 DMA 的 过 程 ， 因 此 很 自然 就 可 以 将 RDMA 作 为 
NVMe 协 议 的 和 载体， 实现 基于 网 络 的 NVMe 协 议 。 


但 是 ， 毕 竞 基 于 网 络 的 传输 模型 与 本 地 的 PCIe 传 输 模 型 还 有 种 种 
E 因此 将 NVMe 协 议 拓展 到 互联 层面 需要 解决 一 系列 问题 。 所 以 ， 
综合 RDMA、FC 等 各 种 不 同事 务 层 协 议 的 特点 ，NVMexpress Inc. 提 出 
了 NVMe over Fabrics 协 议 ， 这 是 一 个 完整 的 网 络 高 效 存储 协议 。 


对 于 NVIMe over Fabrics 协 议 来 说 ， 要 解决 下 面 几 个 问题 : 

1) 提供 对 于 不 同 互 联 透明 的 消息 和 数据 的 封装 格式 ; 

2) 将 NVMe 进 行 操作 所 需要 的 接口 方式 映射 到 互联 网 络 ; 
3) 解决 互联 网 络 的 节点 发 现 、 多 路 径 等 互联 引入 的 新 问题 。 


NVMe over Fabrics 协 议定 义 了 一 整套 数据 封装 方案 ， 与 传统 的 
NVMe 协 议 相 比 ， 这 套 封 装 方 案 针 对 互联 做 了 一 些 调整 和 适 配 。NVMe 
定义 了 一 套 异 步 的 由 软件 驱动 硬件 执行 相应 动作 的 异步 操作 机 制 ， 发 
送 和 完成 包 仪 仅 携 融 必 要 的 摘 述 ， 而 真正 的 数据 和 SGL 朱 述 符 都 是 放 
在 内 存 中 并 且 由 硬件 通过 DMA 方 式 取得 的 。 这 是 基于 PCIe 的 DMA 操 作 
延迟 很 短 (1us) 的 前提 设计 的 。 然而 在 互联 协议 中 ， 厄 点 之 间 的 交互 
时 间 大 大 增加 ， 为 了 减少 两 个 让， 所 之 间 不 必要 的 交互 ， 发 送 请 求 可 以 
直接 携带 附加 的 数据 或 GL 描述 符 ， 完 成 请 求 也 可 以 携 禹 需要 回 传 的 
数据 ， 节约 了 两 者 之 间 交 互 的 负担 o 


图 6-64 为 NVMe Fabric 命 令 数据 包 。 


NVMe Fabric 命令 数据 包 
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图 6-64 NVMe Fabric 4 25358 6] 


NVMe Fabric 啊 应 数据 包 
Command 
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图 6-65 NVMe Fabric 呆 应 数据 包 


与 此 同时 ， 为 了 减少 系统 交互 ， 在 NVMe over Fabrics F , 
成 队列 没有 使 用 流 控 机 制 ， 因 此 需要 主机 在 发 送 新 命令 之 a 
队列 有 足够 的 可 用 空间 (这 点 跟 NVMe 把 SQ/CQ 都 放 在 主机 端 变 化 挺 大 
的 ， 有 点 Host Base Controller Base 的 意思 ) ° 


一 次 IO 的 传输 过 程 如 图 6-66 所 示 。 
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封装 命令 Parameters 
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Status 
传输 相关 的 消息 
完成 队列 
(在 主机 内 存 ) 


封包 (capsule) 传输 
图 6-66 ”NVMe Fabric IO 传输 流程 示意 图 
1) AX (Initiator) 驱动 程序 封装 发 送 请 求 并 派发 给 硬件 o 
2) 发 送 端 硬 件 将 发 送 请 求 发 到 目标 端 (Target 的 发 送 队 列 。 
3) 目标 端 控制 器 处 理 完 成 IO 请 求 ， 并 准备 出 来 完成 请 求 派发 给 硬 


Ars 


4) 目标 端 便 件 将 完成 请 求 发 到 发 送 端的 接收 队列 。 


由 于 发 送 请 求 和 完成 请 求 可 以 直接 携 市 数据 ， 从 而 降低 了 互联 中 
TH FER AC ELE IR] 0 


如 有 果 不 需要 在 请 求 中 携带 数据 ， 也 可 以 由 目标 端 在 过 程 中 直接 从 
发 起 端 获 得 相应 的 数据 ， 如 岁 6-67 所 示 。 


通过 上 述 机 制 ，NVMe over Fabrics 协 议 实现 了 对 于 NVMe 协 议 的 命 
令 和 数据 传输 的 扩展 。 
“普通 的 NVMe 命 令 都 可 以 通过 这 套 机 制 映 射 ，NVMe 的 标准 命令 播 
身 一 变 ， 束 成 为 互联 协议 的 命令 。 


不 过 还 是 有 一 些 场景 是 需要 特殊 考虑 的 ， 为 了 文 持 这 些 场景 ， 协 
议 扩 展 了 NVMe 命 令 ,， 增加 了 与 互联 相关 的 5 个 命令 : Connect ` 
Property Get/Set ` Authentication Send/Receive ° 


下 面 重点 说 一 说 Connect 和 Property Get/Set ° 


在 NVMe over Fabrics 协 议 中 ， 约 定 每 个 发 送 队 列 都 与 一 个 接收 队 
列 一 一 对 应 ， 不 允许 多 个 发 送 队 列 使 用 同一 个 接收 队列 。 发 送 接收 队 
列 对 是 通过 Connect 命 令 来 创建 的 。Connect 命 令 携带 Host NQN、NVM 
Subsystem NQN 和 Host Identifier 信 息 ， 并 且 可 以 指定 连接 到 一 个 静态 的 
控制 右 ， 或 者 连接 到 一 个 动态 的 控制 右 。 一 个 主机 可 以 通过 不 同 的 
Host NQN 或 不 同 的 Fabric 端 口 (Port) 建立 到 一 个 NVMSubsystem 的 多 
重 连接 。 这 种 灵活 性 赋予 了 NVMe over Fabrics 极 大 的 灵活 性 。 
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图 6-67 ”目标 端 直接 从 发 起 端 获 得 效 据 


在 NVMe 协 议 中 ， 控 制 希 是 一 个 代表 与 主机 进行 沟通 的 接口 实体 。 
由 于 PCIe 协 议 是 一 种 树 状 拓扑 结构 ， 因 此 一 旦 控制 万 所 处 的 PCIe 病 口 
定 下 来 后 ， 接 口 所 关联 的 控制 部 惑 完全 定 下 来 了 。 而 对 于 NVMe over 
Fabrics 协 议 来 说 ， 一 个 Fabric 的 端口 可 以 嵌入 多 个 控制 器 ， 因 此 根据 需 
要 不 同 ， 可 以 选择 实现 静态 控制 右 或 动态 控制 融 。 动 态 控 制 紫 是 一 种 
简单 的 模型 ， 适 用 于 对 主机 具有 相同 服务 特性 的 需求 。 静 态 控 制 器 则 
适用 于 有 不 同 需要 的 场景 ， 发 起 者 (Initiator) 可 以 查询 了 解 一 个 Fabric 
端口 内 部 包含 的 静态 控制 占 各 目的 能 力 ， 然 后 选择 连接 到 指定 的 控制 
器 以 满足 目 身 的 需求 。 


在 NVMe 协 议 中 ，PCIe 空 间 的 BAR0 (BARI) 描述 了 一 段 内 存 空 
则 用 于 对 控制 器 进行 基本 的 寄存 器 级 别 的 配置 。 由 于 Fabrics 结 构 没 有 
对 应 的 实现 ， 因 此 NVMe over Fabrics 协 议定 义 了 Property Get/Set 分 别 表 
示 对 控制 锅 端 寄存 需 的 读 取 和 写 入 动作 。 


至 此 ，NVMe 的 标准 操作 就 完全 被 准确 和 高 效 地 映射 成 互联 网 络 所 
对 应 的 使 用 方式 了 。 为 了 能 满足 互联 网 络 的 发 现 机 制 ，NVMe over 
Fabrics 协 议定 义 了 发 现 服务 ， 用 于 让 发 起 者 主动 发 现 NVM 子 系统 和 对 
应 的 可 访问 的 Namespace。 这 个 服务 还 同时 用 于 支持 多 路 人 径 功 能 。 该 功 
能 依赖 于 一 个 特殊 的 配置 成 支持 发 现 服务 的 NVM 子 系统 。 发 起 者 可 以 
连接 到 该 服务 器 并 使 用 Discovery Log Page 命 令 来 获取 可 用 的 资源 。 


如 表 6-6 所 示 ， 可 以 看 出 NVMe 和 NVMe over Fabrics 的 不 同 实 现 方 


qe 


表 6-6 NVMe 与 NVMe Over Fabrics 的 区 别 


ETT Oven Felic 
标识 符 Bus/Device/Function NVMe Qualified Name (NQN) 
发 现 机 制 通过 Discovery and Connect 命令 
队列 此 于 消息 
数据 传输 方式 仅 支持 SGL 
发 送 队列 和 完成 队列 对 应 关系 -对 一 或 者 多 对 一 -对 一 
元 数据 存放 和 块 数据 连续 存放 或 者 单独 存放 和 块 数据 连续 存放 
是 否 支 持 控 制 器 向 主机 产生 中 断 不 支持 


NVMe 官 网 地 址 : http://www.NVMexpress.org/ ° 


第 7 章 SSD 测 试 


本 章 将 介绍 利用 的 SSD 测 试 软件 、 研 发 过 程 中 的 测试 流程 、 第 用 
仪器 设备 及 测试 方法 等 。 


74 主流 SSD 测 试 软件 介绍 
7.1.1 SSD 性 能 测试 第 一 神 圳 一 FIO 


对 于 SSD 性 能 测试 来 说 ， 最 好 的 工具 莫 过 于 FIO 了 。 


图 7-1 中 所 示 的 这 个 可 爱 的 小 伙 子 名 字 叫 Jens Axboe， 他 是 丹麦 哥 
本 哈 根 大 学 计算 机 系 没 毕业 的 学 生 ， 他 还 有 一 个 有 名 的 同乡 叫 Linus， 
没 想到 老乡 后 来 成 了 他 的 领导 。Jens 今 年 (2018 年 ) 41 岁 ，16 岁 开始 
就 接触 Linunx， 后 来 也 成 了 Linux 开 发 者 ， 现 在 是 Linux Kemel 大 拿 了 ， 
负责 块 设备 层 的 维护 。 这 个 块 设备 层 就 是 跟 我 们 SSD 关 系 最 紧密 的 层 
级 ， 联 系 了 上 层 文件 系统 和 下 层 设备 驱动 程序 。 他 开发 了 不 少 有 用 的 
程序 ， 比 如 Linux IO Scheduler 里 面 的 Deadline、CFQ Scheduler， 还 有 
著名 的 王牌 测试 工具 FIO。Jens 曾 经 在 Fusion-IO、Oracle 等 公司 工作 ， 
现在 在 Facebook。 阿 采 听 说 硅谷 的 Facebook 给 码 农 的 薪水 是 最 高 的 。 


图 7-1 FIO 作 者 Jens 


FIO 是 Jens 开 发 的 一 个 开 庆 测 试 工具 ， 功 能 非常 强大 ， 丁 就 只 介 
绍 其 中 一 些 基本 功能 : 线程、 队列 深度 、Offset、 同 步 异 步 、 
DirectIO ^ BIO ° 


使 用 FIO 之 前 ， 首 先 要 有 一 些 SSD 性 能 测试 方面 的 基础 知识 。 
线程 指 的 是 同时 有 多 少 个 读 或 写 任 务 在 并 行 执行 ， 一 般 来 说 ， 


CPU 里 面 的 一 个 核心 同一 时 间 只 能 运行 一 个 线程 。 如 果 只 有 一 个 核 
心 ， 要 想 运 行 多 线程 ， 只 能 使 用 时 间 切 片 ， 每 个 线程 跑 一 段 时 间 卢 ， 


所 有 线程 轮流 使 用 这 个 核心 。Linux 使 用 Jiffies 来 代表 一 秒 钟 被 划分 成 
人 
Sk10z& f? o 


一 般 电 脑 发 送 一 个 读 写 命令 到 SSD 只 需要 几 微 秒 ， 但 是 SSD 要 人 花 
几 百 微 秒 甚至 几 坚 秒 才 能 执行 完 这 个 命令 。 如 果 发 一 个 读 写 命令 ， 然 
后 线程 一 直 休 眠 ， 等 待 结 果 回 来 才 唤醒 处 理 结 果 ， 这 叫 作 同 步 模式 。 
可 以 想象 ， 同 步 模式 是 很 浪费 SSD 性 能 的 ， 因 为 SSD 里 面 有 很 多 并 行 
单元 ， 比 如 一 般 企业 级 SSD 内 部 有 8 一 16 个 数据 通道 ， 每 个 通道 内 部 有 
4 一 16 个 并 行 逻 辑 单元 (LUN, Plane) ， 所 以 同一 时 间 可 以 执行 32~ 
256 个 读 写 命令 。 同 步 模式 就 意味 着 ， 只 有 其 中 一 个 并 行 单元 在 工作 ， 
RISKY) o 


为 了 提高 并 行 性 ， 大 部 分 情况 下 SSD 读 写 采 用 的 是 异步 模式 9 HL 
是 用 几 微 秒 发 送 命 令 ， 发 完 线程 不 会 傻 傻 地 在 那里 等 ， 而 是 继续 发 后 
面 的 命令 。 如 果 前 面 的 命令 执行 完了 ，SSD 通 知 会 通过 中 断 或 者 轮 询 
等 方式 告诉 CPU， 由 CPU 来 调用 该 命令 的 回调 函数 来 处 理 结果 。 这 样 
的 好 处 是 ，SSD 里 面 几 十 上 百 个 并 行 单元 都 能 分 到 活 干 ， 效 率 暴 增 。 


不 过 ， 在 异步 模式 下 ，CPU 不 能 一 直 无 限 地 发 命令 到 SSD。 比 如 
SSD 执 行 读 写 如 打发 生 了 卡 顿 ， 那 有 可 能 系统 会 一 直 不 停 地 发 命令 ， 
几 千 个 ， 甚 至 几 万 个 ， 这 样 一 方面 $5SD 打 不 住 ， 男 一 方面 这 么 多 命令 
会 很 占 内 存 ， 系 统 也 要 挂 擅 了。 这 样 ， 就 带 来 一 个 参数 叫 作 队 列 深度 
° 举 个 例子 ， 队 列 深度 64 束 是 说 ， 系 统 发 的 命令 都 发 到 一 个 大 小 为 64 
的 队列 ， 如 采 填 满 了 束 不 能 再 发 。 等 前 面 的 读 写 命令 执行 完了 ， 队 列 
里 面 空 出 位 置 来 ， 才 能 继续 填 命令 。 


一 个 SSD 或 者 文件 有 大 小 ， 测 试 读 写 的 时 候 设置 Offset 3, n] DJ. 
某 个 偏 移 地 址 开始 测试 。 比 如 从 offset=4G 的 偏 移 地 址 开始 。 


Linux 读 写 的 时 候 ， 内 核 维护 了 缓存 ， 数 据 先 写 到 缓存 ， 然 后 再 后 
台 写 到 SSD。 读 的 时 候 也 优先 读 缓存 里 的 数据 。 这 样 速 度 可 以 加 快 ， 
但 是 一 旦 掉 电 ， 缓 存 里 的 数据 就 没 了 。 所 以 有 一 种 模式 叫 作 
DirectIO ， 跳 过 缓存 ， 直 接 读 写 SSD。 


Linux 读 写 SSD 等 块 设备 使 用 的 是 BIO (Block-IO) ， 这 是 个 数据 
结构 ， 包 含 了 数据 块 的 逻辑 地 址 LBA， 数 据 大 小 和 内 存 地 址 等 。 


1.FIO 初 体验 


一 般 Linux 系 统 是 目 珊 FIO 的 ， 如 果 没 有 或 者 版 本 太 老 ， 要 上 自己 从 
https://github.com/axboe/fio 下 载 最 新 版 本 源 代 码 编译 安装 。 进 入 代码 
主 目录 ， 输 入 下 列 命令 就 编译 安 狼 好 了 。 


./configure;make && make install 
帮助 文档 用 下 面 命令 查看 : 
man fio 


先 来 看 一 个 简单 的 例子 : 


fio -rw=randwrite  -ioengine-libaio -direct=1 -thread-numjobs=1 -iodepth=64 - 
filename-/dev/sdb4  -size-10G -name=job1 -offset=OMB -bs=4k -name-job2 - 
offset-10G -bs-512 --output TestResult.log 


每 一 项 的 意思 都 可 以 从 fio 帮 助 文档 查 到 ， 这 里 的 参数 解释 如 下 ， 
fio 软件 名 称 。 


-rw-randwrite: 读 写 模式 ，randwrite 是 随机 写 测试 ， 还 有 顺序 读 
read， 顺 序 写 write， 随 机 读 randread， 混 合 读 瑟 等 。 


-ioengine-libaio: libaio 指 的 是 异步 模式 ， 如 果 十 同步 殴 要 用 
sync ? 


-direct-1: 是 否 使 用 directIO 。 


-thread: 使 用 pthread_create 创 建 线程 ， 男 一 种 是 fork 创 建 进 程 。 
进程 的 开销 比 线程 要 大 ， 一 般 都 采用 thread 测 试 。 


—numjobs-1: 每 个 job 是 1 个 线程 ， 这 里 用 了 儿 ， 后 面 每 个 用 -name 
指定 的 任务 就 开 儿 个 线程 测试 。 所 以 最 终 线 程 数 = 任务 数 xnumjobs 。 


-jodepth-64: 队列 深度 64 ° 


-filename-/dev/sdb4: ZX15 5 Zl/dev/sdb4ix TZ ( 块 设备 ) 。 这 里 
可 以 是 一 个 文件 名 ， 也 可 以 是 分 区 或 者 SSD。 


-size-10G: 每 个 线程 写 入 数据 量 是 10GB 。 

. -name-jobl: 一 个 任务 的 名 字 ， 名 字 随 便 起 ， 重 复 了 也 没关系 。 
这 个 例子 指定 了 job1 和 job2， 建立 了 两 个 任务 ， 共 享 -name=job1 之 前 的 
参数 。-name 之 后 的 就 是 这 个 任务 独 有 的 参数 。 

-offset=0MB: 从 偏 移 地 址 9MB 开 始 写 。 

-bs-4k: 每 一 个 BIO 命令 包含 的 数据 大 小 是 4KB。 一 般 4kB IOPS 
测试 ， 束 是 在 这 里 设置 。 

---output TestResultlog: 日 志 输 出 到 TestResult.log ° 
2.FIO 结 果 解 析 


我 们 来 看 一 个 FIO 测 试 随 机 读 的 结果 。 命 令 如 下 ， 两 个 任务 并 行 
测试 ， 队 列 深度 64， 异 步 模式 ， 每 个 任务 测试 数据 1GB， 每 个 数据 块 
4KB。 所 以 ， 这 个 命令 是 在 测试 两 个 线程 、 队 列 深 度 64 下 的 4kB 随 机 
读 IOPS 。 


N 


# fio -rw-randread -ioengine-libaio -direct=1  -iodepthz64 -filename-/dev/sdc - 
size-1G -bs-4k -name=job1 -offset=0G -name-job2 -offset-10G 
jobi: (g=0): rw-zrandread, bs-4K-4K/A4K-4K/A4K-4K, ioengine-libaio, iodepth-64 
job2: (g=0): rwzrandread, bs-4K-4K/A4K-4K/A4K-4K, ioengine-libaio, iodepth-64 
fio-2.13 
Starting 2 processes 
Jobs: 2 (f-2) 
jobi: (groupidzO, jobs-1): err- 0: pid-27752: Fri Jul 28 14:16:50 2017 
read : io-1024.0MB, bw-392284KB/s, iops-98071, runt-  2673msec 
slat (usec): min=6, max-79, avg- 9.05, stdev- 2.04 
clat (usec): min-148, max-1371, avg-642.89, stdev-95.08 
lat (usec): min-157, max-1380, avg-651.94, stdev-95.16 
clat percentiles (usec): 
| 1.00th-[ 438], 5.00th-[ 486], 10.00th-[ 516], 20.00th-[ 564], 
| 30.00th-[ 596], 40.00th-[ 620], 50.00th-[ 644], 60.00th-[ 668], 
| 70.00th-[ 692], 80.00th-[ 724], 90.00th-[ 756], 95.00th-[ 796], 
| 99.00th-[ 884], 99.50th-[ 924], 99.90th-[ 1004], 99.95th-[ 1048], 
| 99.99th-[ 1144] 
lat (usec) : 250=0.01%, 500=6.82%, 750-81.149$, 1000-11.939?6 
lat (msec) : 2-0.119 


cpu : usr=9.09%, sys=90.08%, ctx-304, majf=0, minf-98 
IO depths : 1-0.1*, 2-0.1X, 4-0.1*, 8-0.1*, 16-0.1X, 32-0.1*, »-64-100.096 
submit : 020.09, 4-100.09, 8=0.0%, 16-0.09, 32=0.0%, 64=0.0%, 


>=64=0 . 0% 


complete : 0=0.0%, 4-100.0*, 8-0.09, 16=0.0%, 32-0.09, 64-0.19, 
2-64-0.09?6 
issued : total-r-262144/w-0/d-0, short-r-0/w-0/d-0, dropzr-z0/w-0/d-0 
latency : target-0, window-0, percentile-100.00?,, depth-64 
job2: (groupid=0, jobs-1): err- 0: pid-27753: Fri Jul 28 14:16:50 2017 
read : io-1024.0MB, bw-447918KB/s, iops-111979, runt- 2341msec 
slat (usec): min-5, max-41, avg- 6.30, stdev- 0.79 
clat (usec): min-153, max-1324, avg-564.61, stdev-100.40 
lat (usec): min-159, max-1331, avg-570.90, stdev-100.41 
clat percentiles (usec): 
| 1.00th-[ 354], 5.00th-[ 398], 10.00th-[ 430], 20.00th-[ 474], 
| 30.00th-[ 510], 40.00th-[ 540], 50.00th-[ 572], 60.00th-[ 596], 
| 70.00th-[ 620], 80.00th-[ 644], 90.00th-[ 684], 95.00th-[ 724], 
| 99.00th-[ 804], 99.50th-[ 844], 99.90th-[ 932], 99.95th-[ 972], 
| 99.99th-[ 1096] 
lat (usec) : 250=0.03%, 500-27.5796, 750-69.5796, 1000-2.7996 
lat (msec) : 2-0.0496 


cpu : usr-11.629$, sys=75.60%, ctx-35363, majf-0, minf-99 
IO depths : 1-0.1*, 2-0.1X, 4-0.1*, 8-0.1*, 16=0.1%, 32-0.19*, »-64-100.096 
submit : 0-0.09, 4-100.09, 8=0.0%, 16-0.09, 32-0.09*, 64=0.0%, 
»-64-0. 0% 


complete : 0=0.0%, 4=100.0%, 8-0.09, 16=0.0%, 32-0.09, 64-0.19, 
2-64-0. 0% 

issued : total-r-262144/w-0/d-0, short-zr-z0/w-0/d-0, dropzr-z0/w-0/d-0 

latency : target-0, window-0, percentile-100.00?9,, depth-64 


Run status group 0 (all jobs): 
READ: i0-2048.0MB, aggrb-784568KB/s, minb-392284KB/s, maxb-447917KB/s, 
mint-2341msec, maxt-2673msec 


Disk stats (read/write): 
Sdc: ios-521225/0, merge-z0/0, ticks-277357/0, in queue-18446744073705613924, 
util-100.0096 


FIO 会 为 每 个 Job 打 印 统计 信息 。 最 后 面 是 合计 的 数值 。 我 们 一 般 
看 重 的 是 总 的 性 能 和 延迟 。 


首先 看 的 是 最 后 总 的 带宽 ， aggrb=784568KB/s， 算 成 4KB 就 是 
196k IOPS 。 


再 来 看 看 延迟 (Latency) 。 Slat 是 发 命令 时 间 ，slat (usec) : 
min=6，max=79，avg=9.05，stdev=2.04 说 明 最 短 时 间 6 微 秒 ， 最 长 79 
微 秒 ， 平 均 9 微 秒 ， 标 准 差 2.04。clat 是 命令 执行 时 间 ，lat 就 是 总 的 延 
人 迟 。 看 得 出 来 ， 读 的 平均 延迟 在 571 微 秒 左右 。 


clat percentiles (usec) 给 出 了 延迟 的 统计 分 布 。 比 如 90.00th= 
[684] 说 明 90% 的 读 命令 延迟 都 在 684 微 秒 以 内 。 


3. 用 FIO 做 数据 校 难 


用 FIO 可 以 检验 写 入 数据 是 否 出 错 。 用 -verify=str 来 选择 校 验 算 
法 ， 有 md5 、crc16、crc32、crc32c 、crc32c-intel、crc64、crc7、 
sha256、sha512、shal 等 。 为 了 校 验 ， 需 要 用 do_verify 参 数 。 如 果 是 
写 ， 那 么 do_verify=1 就 意味 着 写 完 再 读 校 验 ， 这 种 会 很 占 内 存 ， 因 为 
FIO 会 把 每 个 数据 块 的 校 验 数 据 保存 在 内 存 里 。do_verify=0 时 只 写 校 
验 数 据 ， 不 做 读 校 验 。 


读 的 时 候 如 采 do_verify=1， 那 么 读 出 来 的 数据 都 会 做 校 验 值 检 
查 ， 如 果 do_verify=0， 则 只 读数 据 ， 不 做 检查 。 


另外 ，verify=meta 时 ，fio 会 在 数据 块 内 写 入 时 间 戳 、 逻 辑 地 址 
等 ， 此 时 还 能 用 verify_pattern 指 定 写 入 数据 pattern ° 


4.FIO 其 他 功能 


FIO 功 能 非常 强大 ， 可 以 通过 man 来 查看 每 一 个 功能 ， 也 有 网 页 版 
帮助 文档 https://linux.die.net/man/1/fio ° 


5.FIO 配 置 文件 


前 面 的 例子 都 是 用 命令 行 来 测试 ， 其 实 也 可 以 用 配置 文件 把 这 些 
参数 写 进 去 。 比 如 新 建 FIO 配 置 文件 test.log 内 容 如 下 : 


[global] 
filename-z/dev/sdc 
direct=1 
iodepth=64 

thread 
rw=randread 
ioengine=libaio 
bs=4k 

numjobs=1 
size=10G 


[job1] 
name=job1 
offset=0 


[job2] 
name-job2 
offset-10G 


;--end job file 


保存 后 ， 只 需要 fio testlog 束 能 执行 测试 任务 了 ， 有 是 不 是 很 方便 ? 


7.1.2 AS SSD Benchmark 


AS SSD Benchmark 是 一 款 来 目 德 国 的 SSD 专 用 测试 软件 ， 可 以 测 
试 连续 读 写 、4K 对 齐 、4KB 随 机 读 写 和 响应 时 间 的 表现 ， 并 给 出 一 个 
综合 评分 。 它 有 两 种 模式 可 选 ， 即 MB/s 与 1OPS， 如 图 7-2 所 示 。 


E AS SSD Benchmark 1.7.4739.38088 a AS SSD Benchmark 1.7.4739.38088 zaa EN 


File Edit View Tools Language Help File Edit View Tools Language Help 
| v 


[D: LITEON v55+ 128 «l| | D: LITEON V5S+ 128 
LITEON V5S+ 128 | Read: Write: LITEON V5S+ 128 Read: Write: 
2070304 2070304 
aStorA - OK 


iaStorA - OK 
1024 K - OK 1024 K - OK 
11924 GB 119.24 GB 


2 Seq 加 16MB 

v 4K ivi 4K 

回 4K-64Thrd | v 4K-64Thrd 
»| Acc.time iv 512B 
Score: Score: 


图 7-2 AS SSD Benchmark 测 试 指 标 


AS SSD Benchmark 在 测试 时 一 共 会 生成 和 写 入 5GB 的 测试 数据 文 
件 ， 所 有 3 个 测试 传输 率 项 目 都 是 去 读 写 这 些 数据 文件 来 换算 速度 的 o 
其 4KB QD64 主 要 是 用 来 测 NCQ (Native Command Queuing， 原 生命 令 
队列 ) 差距 的 。IDE 模 式 下 就 和 普通 4KB 随 机 没有 任何 区 别 。 由 于 每 个 
测试 都 需要 进行 一 定 大 小 的 数据 读 写 ， 硬 和 一 性 能 越 低 ， 测 试 需要 花费 
的 时 间 就 越久 ， 拿 机 械 硬盘 来 跑 这 个 测试 并 不 适宜 ， 跑 完全 程 大 约 需 
要 1 个 小 时 左右 。 寻 址 时 间 测 试 ， 读 取 是 测试 寻 址 随机 的 4KB 文 件 (全 
盘 LBA 区 域 ) ， 写 入 是 测试 寻 址 随机 的 512B 文 件 〈 指 定 的 1GB 地 址 范 
围 ) 。 注 意 ， 运 行 ASs SSD 基 准 测试 至 少 需 要 2GB 的 空 闪 空间 。 


AS SSD Benchmark 除 了 可 以 测试 SSD 的 性 能 外 ， 还 可 以 检测 出 
SSD 的 固件 算法 、 是 否 打开 AHCI 模 式 、 是 否 进 行 4K 对 齐 等 ( 见 图 7- 
3) ， 是 目前 应 用 十 分 广泛 的 SSD 测 试 软件 。 


图 7-3 AS SSD Benchmark 测 试 对 象 信息 
AS SSD Benchmark 使 用 的 测试 数据 是 随机 的 。 


7.1.3 ATTO Disk Benchmark 


ATTO Disk Benchmark — 3X fH] 5 4j FH Er] 25 2: Pc 48 8 KIERA , 
RJ IARE Z^ UR ^ TERCER CR RIT 0105 23: AJ CDU E AR 
率 。 该 软件 使 用 了 不 同 大 小 的 数据 测试 包 ， 数 据 包 按 512B、1K、2K 
直到 8K 进 行 读 写 测试 ， 测 试 完成 后 数据 用 柱状 图 的 形式 表达 出 来 ， 体 
现 文件 大 小 比例 不 同 对 磁盘 速度 的 影响 。 


AITO 测 弃 是 极限 情况 下 的 磁盘 持续 读 写 性 能 ， 采 用 的 测试 模型 
mis 很 高 的 可 压缩 性 。ATTO 默 认 测试 全 0 数据 。 它 的 应 用 截图 如 图 7- 
4 所 示 。 


File View Help — , 
DSa) SRi]? |X?| 
Drive: fte] x [^ Force Write Access Iv. Direct I/O 


: C 1/0 Comparison 
Transfer Size: | 05 | o {8192.0 KB 
i 7 (* Overlapped I/O 


Total Lenath: [256 MB -| (^ Neither | 
Queue Depth: [4 ”| 


Controlled by: 


<< Description >> ^ 


Write ^ Read 


23601 19231 
48640 — 41368 
111885 84516 
175177 1897212 
266862 157221 
340332 334696 
362835 463553 
378073 484933 
363608 511024 
420844 490087 
391876 528936 | 
363164 458304 
385841 514984 
452782 462819 
413887 521233 


0 100 200 300 400 500 600 700 800 300 1000 
Transfer Rate - MB / Sec | 


For Help, press F1 | NM] 2 
7-4 ATTO 应 用 截 


7.1.4  CrystalDiskMark 


CrystalDiskMark 软 件 是 一 个 测试 硬盘 或 者 存储 设备 的 小 巧 工具 ， 
测试 存储 设备 大 小 和 测试 次 数 都 可 以 选择 。 测 试 项 目 里 分 为 ， 持 续 传 
输 率 测试 〈 块 单位 1024KB) ， 随 机 512KB 传 输 率 测试 ， 随 机 4KB 测 
试 ， 随 机 4KB QD32 (队列 深度 32) 测试 ， 如 图 7-5 所 示 。 
CrystalDiskMark 默 认 运 行 5 次 ， 每 次 100MB 的 数据 量 ， 取 最 好 成 绩 。 
CrystalDiskMark 软 件 测 斌 前， 同样 会 生成 一 个 测试 文件 (大 小 由 用 户 
自行 设置 ) 。 一 般 来 说 ， 设 置 得 越 大 ， 数 据 绥 存 的 干扰 越 少 ， 成 绩 整 
更 能 反映 SSD 的 真实 性 能 ， 不 过 缺点 是 会 影响 SSD 的 耐久 度 ( 写 入 太 多 
数据 影响 PE) 。 所 以 一 般 测 试 时 都 采纳 软件 默认 值 。 

CrystalDiskMark 测试 次 数 


| ) | 测试 文件 大 小 
测试 软件 (D CrystalDiskMark 


文件 (F) ”编辑 (E) / 主题 (D) 


$[v]owe 加 C:Hard Disk [NTFS] 
» 394.8 408.3 
»» 315.0 368.1 
una 22.81 (154.73 


L a 


BEAN(H) Language 
测试 全 部 项 目 


顺序 传输 


Read [MB/s] Write [MB/s] 


图 7-5 ”CrystalDiskMark 测 试 指标 


软件 默认 测试 数据 为 不 可 压缩 数据 。 如 果 设 置 选 项 中 选择 了 <All 
0x00，0Fill> 或 <All 1x00.1Fill>， 测 试 成 绩 会 大 不 一 样 。 其 实 就 是 把 数 


据 模 型 改 为 全 部 是 可 压缩 连续 数据 ， 这 跟 ATTO 测 试 原 理 一 样 ， 测 试 出 
来 成 绩 相 当 不 错 ， 但 实际 参考 意义 并 不 大 。 修 改 数据 模型 后 有 一 个 明 
显 的 特征 ，CDM 的 标题 栏 上 会 直接 标注 出 来 ， 如 图 7-6 所 示 。 

E CrystalDiskMark 5.2.2 x64 


[ejm 
XR) RRS EST) ”帮助 (H)” 语 高 (t)(Language) 


| s[v] 1GiB [|c: 35% (167/484GiB) [v] 's[|v] 1G [lc: 35% (167/484Gi) [v] 
Read [MB/s] Write [MB/s] 


| Read [MB/s] Write [MB/s] 
45$ 518.9 425.7 | 5 520.7 424.7 


w3u/348/4 :290.6 | 5348/7 281.1 


5:390/3 :39618 | =: 39216 416.7 
alll9.92 145/81 | 120.16 144.74 


将 软件 设置 成 ，<Al1，0x0 Fill> 或 者 <All 0x0 Fill>, 
其 实 就 是 把 数据 模型 改 成 全 部 是 0 或 1 可 压缩 连续 数据 。 


图 7-6 ”CrystalDiskMatk 设 置 不 同 填充 Pattern 


7.1.5 PCMark Vantage 


PCMark Vantage t] 以 衡量 各 种 类 型 PC 的 综合 性 能 。 从 多 媒体 家 庭 
娱乐 系统 到 笔记 本 ， 从 专业 工作 站 到 高 端 游 戏 平 台 ， 无 论 是 专业 人 士 
还 是 普通 用 户 ， 都 能 通过 PCMark Vantage 透 彻 了 解 其 性 能 ， 从 而 发 挥 
最 大 性 能 。 测 试 内 容 可 以 分 为 以 下 三 个 部 分 : 

1) 处 理 器 测试 ， 基 于 数据 加 密 、 人 解密 、 压 缩 、 解 压缩 、 图 形 处 
理 、 首 频 和 视频 转 码 、 文 本 编辑 、 网 页 渲染 、 邮 件 功能 、 处 理 右 人 工 
智能 游戏 测试 、 联 系 人 创建 与 搜索 。 


2) 图 形 测 试 ， 基 于 高 清 视 频 播放 、 显 卡 图 形 处 理 、 游 戏 测试 。 


3) 便 盘 测试 : 使 用 Windows Defender ^ (Alan Wake》 游 戏 、 
像 导 入 、Windows Vista 启 动 、 视 频 编辑 、 媒 体 中 心 使 用 、Windows 
Media Player 搜 索 和 归 类 ， 以 及 某 些 程序 的 启动 (如 Office Word 
2007、Adobe Photoshop CS2 ^ Internet Explorer、Outlook 2007) 


o 


7.1.6 IOMeter 


IOMEeter 是 一 个 单机 或 者 集群 的 O 子 系统 测量 和 描述 工具 。 与 前 面 
介绍 的 测试 软件 相 比 ，IOMeter 在 测试 软件 中 是 属于 比较 自由 的 ， 用 户 
可 以 按照 测试 需求 去 配置 测试 磁盘 数据 范围 、 队 列 深度 、 数 据 模式 

〈 可 压缩 或 者 不 可 压缩 ， 有 些 版 本 支持 ， 有 些 老 版 本 不 支持 ) 、 测 试 
模式 (随机 或 者 顺序 访问 ) 、 读 写 测 斌 比例、 随机 和 顺序 访问 比例 ， 
以 及 测试 时 间 等 。IOMeter 应 用 截图 如 图 7-7 所 示 。 
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图 7-7 IOMeter 应 用 截图 
本 地 IO 性 能 测试 : 
1) 启动 程序 ， 在 Windows 上 单 击 IOMeter 图 标 ; 
2) 在 Disk Targets 页 中 选择 一 个 驱动 器 ; 


3) 在 Access Specifications 页 中 选择 一 个 需要 的 测试 项 目 ; 


4) 在 Results Display 页 中 设置 Update Frequency (Seconds) ， 即 设 
置 多 长 时 间 统 计 一 次 测试 结果 ， 如 采 不 设置 ， 不 但 在 测试 期 间 不 显示 
测 斌 结果， 而 且 在 测试 结束 后 在 测试 结 采 文件 中 也 没有 数据 ; 

"Total I/Os per Second: 数据 存 取 速度 ， 该 值 越 大 越 好 ， 

Total MBs per Second: 数据 传输 速度 ， 该 值 越 大 越 好 ; 

Average I/O Response Time: 平均 啊 应 时 间 ， 该 值 越 小 越 好 ; 

CPU Utilization: CPU 占用 率 ， 越 低 越 好 ; 


5) 单 击 工具 栏 中 的 Start Tests 按 钮 ， 选 择 一 个 测试 结果 输出 文件 后 
开始 一 个 测试 〈 一 般 一 次 测试 运行 10 分 钟 即 可 ) ; 

6) 测试 完成 后 单 击 “stop” 按 钮 停止 所 有 测试 ; 

7) 查看 测试 结果 ， 由 于 IOMeter 没 有 提供 一 个 GUI 的 查看 测试 报告 
的 工具 。 可 以 使 用 Excel 打 开 测 试 结果 文件 “csv”"， 然 后 利用 Excel 的 图 标 


工具 整理 测试 结果 。 或 者 使 用 IOMeter 近 供 “Import Wizard for MS 
Access” 将 测试 结果 导入 一 个 Access 文 件 。 


7.22 ”验证 与 确认 
Emulation ` Verification ` Validation ` Test ^ QA ° 

先 聊 一 下 Verification 和 Validation ° 

为 了 帮助 理解 ， 先 简单 说 一 下 必 片 设计 的 过 程 : 

1) 需求 : 老大 们 商量 这 颗 主 控 要 实现 什么 功能 。 

2) 架构 : Architecture Hitit A] 。 

3) 设计 : ASIC 把 各 种 内 部 、 外 部 卫 攒 起 来 。 

4) TapeOut ° 

5) 芯片 回来 。 

在 设计 阶段 ， 使 用 Emulator (以 后 介绍 ) 或 者 FPGA 进 行 测试 的 过 
N 中 文 翻译 为 “验证 ”一 一 目的 是 为 了 帮助 ASIC 把 事 


在 发 片 回来 以 后 ， 使 用 开发 板 进 行 测试 的 过 程 ， 叫 Validation， 中 
文 翻译 为 “确认 ”一 一 日 的 是 确保 ASIC 把 事情 给 做 对 了 。 


在 Verification 阶 段 ， 一 旦 发 现 问题 ，ASIC 工 程 师 可 以 马上 fix， 然 
后 通过 升级 Emulator 的 database 或 者 更 新 FPGA 的 bit fle 把 新 的 RIL 交 给 
测试 再 验证 一 裔 ， 一 直到 做 对 为 止 。 


相同 的 问题 ， 如 有 果 是 Validation 阶 段 才 发 现 ， 则 只 能 通过 重新 
TapeOut (mental fix) REEE GTI” T 。 


7.3. WR 
7.3.1 Emulator 


在 SSD 主 探 芯 片 设计 阶段 ， 除 了 RTL Simulation 以 外 ， 通 常 还 会 进 
fT VerificationB'J L€, Tfj Verification" 3; z fs FR $l|EmulatorBX Er 
FPGA ° 

先 说 一 下 Simulation 和 Emulation 的 区 别 : 


Simulator 是 做 仿真 ， 基 于 软件 ， 重 点 是 实现 心 族 的 功能 并 输出 绪 
Emulator 十 做 模拟 ， 用 人 硬件 实现 ， 通 过 模拟 实现 心 片 的 内 部 设 
计 ， 从 而 实现 功能 并 输出 结 采 。 


7-8 为 业界 比较 知名 的 Emulator 提 供 商 Cadence 旗 下 的 Emulator 产 
品 Palladium 系 列 ° 


cadence 


7-8 Emulator 


按照 官方 的 说 法 ， 它 可 以 做 Simulation ` Simulation Acceleration 
Emulation ° 


在 设计 SSD 主 控 芯 片 时 ，Emulator 和 FPGA 都 可 以 用 于 ASIC 
Verification， 那 这 两 者 区 别 有 哪 些 ? 个 人 理解 ， 主 要 有 这 么 几 点 : 


xoi 价格 : Emulator 大 概 百 万 美元 级 别 ，FPGA 大 概 是 数 千 到 万 美 
元 级 列 ; 


2) ÉJ: Emulator 的 逻辑 可 以 到 23 亿 门 〈 这 是 老 款 Palladium 
XP， 最 新 款 据 Palladium Z1 达 到 了 90 亿 门 ) ，FPGA 大 概 是 百 万 门 级 
别 。 对 应 到 SSD 主 探 里， 一 块 FPGA 可 能 只 能 模拟 前 段 

(PCIe+NVMe) ， 后 端 《闪存 Controller) 可 能 需要 另外 一 块 FPGA， 
而 Emulator， 只 要 你 想 塞 ， 整 个 ASIC 的 RTL 赛 进入 也 是 妥 妥 的; 


3) Debug: Emulator 可 以 比较 方便 地 导出 ASIC 工 程 师 所 需要 的 信 
而 FPGA 在 连接 协议 分 析 仪 、 逻 辑 分 析 仪 方 
SÈ ; 


4) 速度 : Emulator 虽 然 好 ， 但 是 速度 比 FPGA 要 慢 得 多 来 个 
传说 中 的 例子 : 如 果 FPGA 上 boot 一 个 OS 要 几 个 小 时 ， 那 Emulator 上 
boot 一 个 OS 可 能 要 几 天 ; 


5) Rx: FPGA 是 个 公司 就 能 有 ，Emulator 则 绝对 是 实力 的 彰显 
有 领导 、VIP 来 参观 的 时 候 ， 给 参观 一 下 ， 顿 时 就 跟 其 他 公司 拉 
天 关中: 于: 


归根 结 压 ，Emulator 和 FPGA 都 是 很 好 的 工具 ， 需 要 正确 、 合 理 地 
使 用 ， 才 能 更 好 地 在 心 片 人 研发 阶段 发 现 更 多 ASIC 问 题 。 


Emulator (或 FPGA) 的 另 一 个 好 处 是 ， 固 件 团 体 可 以 使 用 这 些 工 
具 提 前 开始 开发 ， 不 用 等 芯片 回来 以 后 ， 先 经 历 “ 不 死 也 要 脱 层 皮 ”的 
a 然后 才 开 始 “ 遇 到 问题 不 知道 硬件 原因 还 是 代码 原因 
J” 开发 阶段 。 


致力 于 构建 SSD 主 控 和 谐 团队 ! 


Emulator 


7.3.2 ”协议 分 析 仪 


村 要 测试 SSD， 需 要 很 多 很 多 不 一 样 的 设备 ， 需 要 人 花 很 多 很 多 的 银 


目前 市 面 上 的 SSD 接 口 挺 多 ， 如 SATA、SAS ^ PCIe ` U2^ M2^ 
MSATA ^ GumsStick, 


EXEM: SATA/SASTUPCIe ° 


一 颗 SSD 主 控 一 般 分 前 、 中 、 后 三 段 ， 前 端 就 是 SATA/SAS 和 PCfIe 
这 些 配 上 AHCI 或 者 NVMe， 中 上段 就 是 FTL， 后 端 就 是 内 存 控制 器 。 


FTL 是 纯 软 件 实现 ， 测 这 个 基本 上 不 需要 什么 设备 。 


后 端 跟 内 存 打交道 ， 主 要 用 多 辑 分 析 仪 ， 另 一 种 巨 贵 的 仪器 ， 这 
里 不 展开 说 。 


这 里 先 聊 两 种 协议 分 析 仪 (Analyzer) , SATA/SAS Analyzer 和 
PCIe Analyzer ° 


Analyzer 是 什么 ? 你 可 以 这 么 理解 ， 以 SATA Analyzer], SATA 
Host 和 SATA SSD 之 间 传 输 命令 和 数据 ， 束 像 两 个 人 在 打 电 话 ， 不 在 这 
个 线路 上 的 你 ， 正 常情 况 下 是 听 不 到 他 们 说 了 什么 的 。 但 通过 
UE 你 就 可 以 完 完整 整地 知道 他 们 之 间 的 对 话 ， 同 时 还 不 会 让 他 
门 俩 察觉 


SATA/SAS Analyzer 的 供应 商 ， 平 时 接触 比较 多 的 有 两 家 : 
SerialTek 和 LeCroy ° 


如 图 7-9 所 示 为 SerialTek SATA/SAS Analyzer ° 


图 7-9 SerialTek SATA/SAS 协 议 分 析 仪 
连 在 主机 和 SSD 之 间 的 示意 图 如 图 7-10 所 示 。 


测试 主机 
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or PCle 


分 析 主 机 


SATA 


"RIA - hy 
电源 线 协议 分 析 仪 


图 7-10 SATA 协议 分 析 仪 连接 示意 图 
抓 到 的 Trace 是 这 个 样子 ， 如 图 7-11 所 示 。 
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图 7-11 SATA Trace 示例 


PCIe Analyzer 的 供应 商 主 要 有 三 家 : 


如 图 7-12 所 示 为 LeCroy 的 PCIe Analyzer ° 


LeCroy、SerialTek 和 Agilent。 


图 7-12 LeCroy PCIe 协 议 分 析 仪 


它 配 有 各 种 Interposer 卡 ， 如 图 7-13 所 示 。 
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图 7-13 LeCroy PCIe 协 议 分 析 仪 Interposer cards 


抓 到 的 Trace 是 这 个 样子 的 (这 是 一 个 NVMe 读 写 的 命令 ，LeCroy 
可 以 帮 你 解码 NVMe、AHCI 这 种 常见 的 存储 协议 ) ， 图 7-14 中 ， 软 件 
将 PCIe Trace 中 的 NVMe 命 令 解 析 了 出 来 。 


使 用 PCIe Analyzer 可 以 测量 PCIe 的 物理 层 、 链 路 层 、 事 务 层 。 跟 
示波器 不 同 ，Analyzer 可 以 基于 PCIe 协 议 将 链 路 上 所 有 Lane 上 发 生 的 事 
务 都 解析 出 来 ， 并 且 还 提供 Trigger (触发 ) 的 功能 e 


同步 解析 Pele 与 Nvme 
Nvme 命令 队列 编号 
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图 7-14 ”PCIe 软件 解析 NVMe 指 令 


对 于 Analyzer 的 一 大 挑战 束 是 在 链 路 电源 状态 切换 的 过 程 能 够 快速 
适应 ， 越 早 实 现 正确 的 抓 包 并 解析 越 好 。 


这 点 在 调试 的 时 候 尤 其 重要 ， 看 一 个 实际 的 例子 : 对 一 个 寄存 器 
做 CfgWr 操 作 ， 但 是 结果 发 现 写 进 去 的 值 不 对 ， 而 且 这 个 问题 只 在 
ASPM enable 的 时 候 才 会 发 生 。 


电源 状态 切换 对 于 PCIe 发 送 端 和 接收 端 来 说 是 属于 压力 比较 大 的 
操作 ， 因 此 有 时 会 导致 链 路 不 稳定 从 而 发 送 错误 的 包 。 这 种 问题 调试 
需要 抓 trace， 而 analyzer 必 须 把 在 链 路 从 L0s 退 出 进入 L0 时 所 发 送 的 全 
部 TLP 都 抓 到 ， 和 否则 就 无 法 查看 错误 到 底 在 什么 地 方 。 且 L0s 退 出 的 时 
间 非 常 短 ， 所 以 Analyzer 需 要 在 链 路 从 electrical ide ( 空 闪 状态 ) 退出 
后 非常 短 的 时 间 内 ( 几 十 个 FTS 叫 ) 就 能 正确 抓 包 并 解析 。 


工具 是 死 的 ， 人 是 活 的 ， 什 么 时 候 抓 trace， 抓 哪个 阶段 ， 抓 的 时 
候 满 屏 的 红色 怎么 办 ， 怎 么 设 Trigger，trace 怎 么 分 析 ? 这 些 就 需要 工 
程 师 们 自己 花 时 间 琢 磨 了 。 


[1] 全 称 为 Fast Training Sequence ° 


7.3.3 Jammer 


再 牛 的 肖邦 ， 也 弹 不 出 SSD 广 商 的 悲 仿 。 


一 块 SSD 到 不 同 客户 手 上 ， 不 知道 会 接 在 什么 机 器 ， 使 用 什么 样 的 
OS 和 主机 张 动 ， 在 什么 环境 下 使 用 。 结 合 巨 大 的 使 用 数量 ， 不 知道 哪 
Rr LEE 

SATA SSD) 。 


举 个 例子 : XUEI—TdxXü 4, SDZ ANAR aP, XXE 
苦 把 数据 从 闪存 里 读 出 来 ， 仔 仔细 细 地 进行 ECC 解 码 ， 小 心 愤愤 传 到 
DDR， 进 行 MPECC 检 查 ， 再 全 神 贯 注 地 传 到 SATA 模 块 的 某 个 FIFO， 
这 时 候 SSD 抹 抹 涉 上 的 汗 ， 把 手 擦 干净 ， 写 了 一 张 字条 ， 上 
书 ?"X_RDY”， 茶 茶 敬 敬 地 递 给 主机 ， 然 后 把 数据 兵 在 怀 里 ， 细 心地 用 
SOF 包 装 好 ， 有 息 切 地 期 盼 主机 也 回复 一 张 小 字 条 “R_RDY”。 主 机 十 分 
感动 地 看 着 SSD， 然 后 回复 了 一 句 “R_ERR” 拒 绝 了 它 。 


客户 们 的 要 求 是 一 样 的 一 一 “主机 虚 你 千 百 沉 ，SSD 你 要 待 他 如 初 
术语 叫 作 Robustness (健壮 性 ) 。 


为 了 保证 健壮 性 ，ASIC 和 固件 工程 师 们 要 花 大 量 的 精力 ， 脑 补 各 
在 RTL 和 FW 中 加 入 相应 的 错误 处 理 (Error Handling) 
流程 。 


这 么 做 有 两 个 问题 ， 这 些 错 误 处 理 的 流程 ， 在 实验 室 里 面 跑 一 星 
期 ， 可 能 都 撞 不 到 一 个 ， 再 牛 的 工程 师 也 没 法 提前 考虑 到 各 种 错误 。 


与 其 让 别人 找 磋 烦 ， 不 如 自己 给 自己 找 磋 烦 。 搞 测试 的 就 是 平时 
给 ASIC 和 固件 找 麻 烦 ， 以 SATA SSD 为 例 ， 可 以 用 一 种 工具 


Jammer ° 
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图 7-15 中 所 示 小 一 号 的 那个 就 是 SATA Jammer ? 


TV 


图 7-15 SATAN Jammer 


如 果 说 Analyzer 是 一 个 “窃听 器 "， 让 你 知道 主机 和 设备 之 间 发 生 了 
什么 ， 那么 Jammer 就 是 一 个 “邮递 员 ”， 主 机 和 设备 之 间 所 有 的 通信 都 
必须 经 过 它 的 手 ， 然 后 Jammer 可 以 把 信 拆 开 ， 将 里 面 的 内 容 修改 或 者 
蔡 换 ， 再 转发 出 去 。 


结合 之 前 的 例子 ， 我 们 可 以 把 正常 主机 回复 R_RDY 改 成 R_ERR， 
从 而 检查 SSD 过 到 这 种 情况 时 处 理 的 是 否 正 确 。 


图 7-16 所 示 为 Jammer 管 理 软件 截图 向 一 个 Data FIS 中 故意 注入 
CRC Error ? 


21 


z ATA Command - READ DMA EXT G 


Add selected event (drag events here) 


Then: 


Brard to Zate 7 
Em 


Add arton 


New "Wait for’ (drag events here? 


Wait for random, up to -E of those events: 


图 7-16 SATA Jammer 管 理 软件 界面 


通过 在 SATA 链 路 上 创建 各 种 不 同 的 错误 ， 可 以 确认 各 种 错误 处 理 
的 流程 是 否 正 确 或 者 完善 ， 甚 至 增加 新 的 流程 。 


Jammer 还 有 别 的 用 处 ， 当 你 想 知道 某 种 场景 (Scenario) 发 生 以 后 
主机 或 者 设备 的 反应 时 ， 可 以 通过 Jammer 来 知道 答案 。 比 如 当 设 备 回 
复 的 SDB 里 面 Error Bit 被 置 上 ， 或 者 设备 一 直 不 发 SDB 时 ， 主 机 是 不 是 
会 重 发 命令 ， 重 发 儿 次 ， 重 发 多 次 设备 都 没 反应 的 话 Driver 会 不 会 启动 
OOB，Application 会 不 会 报错 ? 


你 值得 拥有 。 


Jammer 


7.4 回归 测试 

SSD 这 行 ， 固 件 的 兄弟 姐妹 挺 不 容易 的 : 

-有 新 的 功能 要 加 代码 ; 

-有 bug 要 修 要 改 代 码 ; 

需求 变 了 要 改 代码 ; 

-优化 性 能 更 要 改 代码 。 

这 样 改 来 改 去 ， 改 着 改 着 就 有 可 能 把 本 来 没 问题 的 地 方 改 出 问 
题 。 比 如 ， 修 Bug B 的 时 候 ， 把 上 个 月 解决 的 Bug A 给 重新 放出 来 了 ， 
或 者 新 创建 了 一 个 Bug C。 
这 种 改 代码 出 现 副 作用 的 情况 ， 在 SSD 固 件 开 发 过 程 中 几乎 不 可 避 
ea d RM 

Regression Test 是 什么 : 


-确保 新 的 代码 没有 影响 原 有 功能 ; 


:从 现 有 功能 的 测试 用 例 中 选取 部 分 或 者 全 部 出 来 进行 测试 。 


每 次 发 布 新 的 固件 ， 能 够 把 之 前 所 有 测试 全 部 跑 一 次 当然 最 好 ， 
但 凡是 干 过 测试 的 都 知道 这 是 不 可 能 的 ， 束 算 技 术 上 可 行 ， 人 也 不 
够 ， 就 算 人 人 够 ， 副 也 不 够 ， 束 算 这 些 都 够 ， 时 间 也 不 够 ， 如 图 7-17 所 
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海量 测试 项 目 有 限 测 试 时 间 


回归 测试 


图 7-17 平衡 海量 测试 项 目 与 有 限 测 试 时 间 


选取 合适 的 测试 用 例 ， 放 在 回归 测试 里 ， 还 是 有 些 技巧 可 以 参考 


-那些 经 常 失败 的 项 目 ， 比 如 压力 测试 ; 
:用 户 肉眼 可 见 的 功能 ， 比 如 跑 Benchmark; 
-核心 功能 的 测试 ; 

:那些 目前 正在 进行 或 者 刚 完成 的 功能 ; 
.数据 完整 性 测试 一 一 R/W/C; 
:边界 值 测试 。 


科学 人 研究 证 明 ， 有 效 的 回归 测试 可 以 节省 60% 的 bug 修 复 时 间 和 
40% 的 成 本 。 


局 更 见 荣 框 公 的 故事 还 记得 吧 ， 有 病 早 治 ， 有 问题 早 解决 ， 大 家 


o 


7.5 ”DevSlp 测 试 


增加 了 DevSlp 这 个 功能 以 后 ，SATA IO 也 在 原 有 的 Partial&Slumber 
测试 的 基础 上 特别 增加 了 对 DevSlp 的 测试 。 


新 的 测试 要 求 主 要 是 关注 DevSlp 状 态 的 进出 是 否 正 常 ， 要 实现 这 
点 : 能 让 设备 进入 DevSlp， 进 去 以 后 能 够 侦 测 到 DevSlp 
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否 进 入 DevSlp 的 问题 不 用 讨论 ， 如 果 不 能 进 ， 也 不 用 测试 了 。 


侦 测 状态 ， 通 过 检查 SATA Status Register (SATA 状 态 寄 存 器 ) 就 
能 够 实现 ， 这 个 Register 的 Bit[11: 8]Ht57$l[Interface Power Management 
(IPM) 设置 。 读 取 这 个 寄存 器 就 能 知道 AHCI 控 制 器 (主机) 要 求 设 
备 进 入 的 状态 。 具 体 定义 如 表 7-1 所 示 。 


表 7-1 SATA Status Register (SATA 状 态 寄 存 器 ) 定义 


状态 寄存 器 2h 接口 处 于 Partial 省 电 模 式 
0h iz 部 在 或 连接 未 建立 6h 接口 处 于 Slumber 省 电 模 式 
lh 接口 处 于 工作 状态 8h 接口 处 于 DevSlp 省 电 模 式 


通过 读 写 这 个 寄存 器 可 以 知道 设备 能 否 成 功 地 进出 DevSlp。 但 是 
具体 物理 层 上 状态 切换 的 各 种 时 间 参 数 〈 例 如 MDAT、DMDT、DETO 
等 ) 就 没 办 法 测量 了 。 


专业 的 测试 需要 专业 的 仪器 ， 有 第 三 方 的 仪器 可 以 做 这 种 测试 ， 
如 图 7-18 所 示 。 
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待 测试 SATA SSD | LeCory SATA 协议 分 析 
仪 自 带 扩展 电源 卡 
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电源 线 
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SATA 数据 线 


电源 扩展 卡 连接 示意 图 
图 7-18 LeCroy SATA 分 析 仪 支持 DevSlp 


从 图 中 可 以 看 到 使 用 了 专门 文 反 DevSlp 的 线 绑 。 
有 了 两 个 针对 DevSlp 的 case: 


‘IPM-12: Entering DevSlp Interface power state. (进入 DevSlp 模 
X) 


PM-13: DevSlp interface power state exit latency (DevSlp 模 式 退 出 
IAE) 。 


IPM-12 重 点 是 测试 DevSlp 进 入 : 
1) 先 让 SSD 进 入 DevSlp 状 态 ; 


2) 保持 DevSlp 信 号 有 效 的 情况 下 ， 持 续 向 SSD 发 包 ， 确 保 SSD 不 
会 回应 发 过 去 的 包 ; 


3) 检查 各 种 时 间 参 数 是 否 在 规定 范围 内 (SATA 3.2 里 面 没有 包括 
DXET， 但 是 测 一 下 还 是 很 有 道理 的 ) 。 


表 7-2 ”DevSlp 时 序 参数 检查 


Symbol 参数 Value (时 间 要 求 ) 
DMDT DEVSLP 最 小 侦 测 时 间 10us 
DETO 设备 DEVSLP 退出 超时 时 间 20us (除非 在 标识 数据 日 志 中 另 有 规定 ) 


图 7-19 是 SATA Analyzer 记 录 的 测试 结 


Dev Sleep 
Asserted 


IH Host i Devslp 60ms (> 10ms) 


| m 
X to Y : 101.042.026 (ms) | X to T : -2.183.075.826 (s) | Y to T : -2284.117.853 (s) | 
图 7-19 ”IPM-12DevSlp 测 试 结 


MDAT: 了 协议 规定 主机 唱 摇篮 曲 给 设备 听 ， 至 少 要 唱 10ms， 主 机 
说 到 做 到 ， 唱 了 10ms 又 10ms， 唱 了 10ms 又 10ms。 


DXET: 协议 规定 从 主机 唱 摇篮 曲 100ms 以 后 ， 设 备 必须 睡 着 ， 设 
备 也 说 到 做 到 ，60ms 的 时 候 睡 着 了 。 


协议 规定 ， 设 备 进 入 DevSlp 后 ， 只 要 DevSlp 还 是 置 位 状态 ， 主 机 
随便 怎么 弄 ， 设 备 都 不 能 醒 ， 于 是 主机 为 了 考验 设备 ，100ms 后 开始 不 
停 地 发 COMRESET 要 想 唤 醒 设 备 。 


若 设 备 能 够 在 DevSlp 的 状态 下 能 够 Detect 到 COMRESET， 说 明 测 
斌 失败， 该 功能 没有 做 对 。 


IPM13 的 重点 是 测试 DevSlp 退 出 : 


ELT \ 需 要 完整 的 上 电流 程 ， 而 是 使 用 COMWAKE 信 和 号 
让 SATA 链 路 决 速 进入 PHY Ready 状 态 ; 


DETO: 协议 规定 设备 从 DevSlp 状 态 下 退出 需要 在 20ms 内 完成 。 
先 Assert DevSlp 信 号 让 设备 进入 DevSlp 状 态 ， AS De-Assert DevSlp 信 
号 开始 发 送 OOB 信 号 (同时 启动 一 个 Timer) ， 设 备 必 须 在 20ms 内 响应 
OOB 信 和 号。 只 要 响应 了 就 算 测试 通过 能 不 能 完成 OOB，IPM13 
不 管 ， 那 是 OOB 测 试 的 事情 。 


图 7-20 是 最 终 测试 结果 的 截图 。 
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Description 


E 


i | the device shall not initiate any device to host communications; and the device shall 
: ignore any host to device communications. 


"The device shall be ready to detect DOB signals in less than orequalto — 7 
20ms/DETO field (defined in Identify Device Data Log) after Negating DEVSLP. 


图 7-20 ”DevSlp 最 终 测试 结果 


7.6 PCIe InterOp 


PCISIG 是 个 大 家 庭 ， 没 事 会 弄 个 Compliance Workshop， 各 公司 可 
以 把 自己 的 产品 拿 去 测试 ， 包 括 : 


:Electrical Testing: 电气 化 测试 ， 重 点 测试 物理 层 的 发 送 端 和 接收 
端 。 


Configuration Testing: PCIe 设 备 配置 空间 测试 。 
.Link Protocol Testing: 设备 链 路 层 协议 相关 测试 。 
"Transaction Protocol Testing: 事务 层 协议 测试 。 


.Platform BIOS Testing: 平台 BIOS 测 试 。 


贵 梧 弄 出 一 块 PCIe SSD， 如 采 能 走 完 这 一 套 流程 ， 说 明 PCIe 接 口 


这 块 没 险 站 题 了 ， 毕 毕竟 这 些 测试 项 目 是 由 制定 PCIe 协 议 的 组 织 出 品 


然后 PCISIG 会 给 贵 司 一 个 小 红 花 ， 将 这 块 PCIe SSD 放 到 光 琳 榜 上 
(Integrators List) ， 如 表 7-3 所 示 。 


PCISIG 光 宁 榜 即 Integrators List， 网 址 : 
https://pcisig.com/developers/integrators-list ° 


表 7-3 PCIe Integrators 列 表示 例 
发 布 日 其 


4 PCIe 3.0 . 
Device 2 x8 Graphics 21-Jun-17 
at SGT/s 
p : PCIe 3.0 : 
SAMSUNG Electronics 983M2 PCIe SSD x4 SSD Endpoint Card | 10-Aug-17 
at SGT/s 
. PCIe 3.0 
PE4011 SSD Endpoint x4 PCIe NVMe 23-Aug-17 
at 8GT/s 


AMD 


SK hynix 


AMD 

Beijing Starblaze 
Technology Co., LTD. 

Beijing Memblaze 
Technology Co., Ltd. 

Huawei Technologies 
Co., Ltd 


Realtek Semiconductor 


Corp. 


以 上 环节 ， 贯 司 都 是 一 个 人 在 战斗 ， 吏 像 比 武 招 亲 ， 只 能 跟 你 未 
来 老婆 打 ， 不 能 跟 别 的 选手 接触 〈《 这 个 比武 招亲 是 一 妻 多 夫 制 ) 。 


Workshop 里 还 有 一 个 华山 论 剑 的 环节 ， 各 家 公司 可 以 把 自家 产品 
拿 出 来 跟 其 他 公司 的 产品 放 到 一 起 切磋 一 下 ， 看 看 互相 之 间 组 队 有 没 
有 问题 ， 这 个 环 太 就 是 Interoperability Test ° 


贵 司 拿 着 刚 出 炉 的 PCIe SSD ， 走 到 牙膏 三 | 公司 的 展位 : “ 兄 台 ， 小 
弟 这 有 一 块 PCIe Gen3x4 的 NVMe SSD， 想 跟 您 的 S 主 芯片 切磋 一 下 ， 请 
赐教 ! ”牙膏 厂 的 兄弟 睡 了 一 眼 你 的 Badge， 亲 切 地 拒绝 了 。 (在 这 个 
DNE, Ea DIL EE o) 


按摩 店 A 公 司 在 忙 着 跟 $ 公 司 、M 公 司 玩 ， 也 暂时 没 空 搭理 贵 司 。 


iX, An KHJSynopsyszs [ ER: SAAN, RAKAR 
ipe 未 来 必 成 大 器 .……” 于 是 你 们 两 家 摆 开 阵势 ， 按 照 下 面 流程 开始 
JPA: 


1) 了 解 对 方 的 实力 〈 就 像 相亲 时 间 对 方 : 你 们 小 区 停车 费 多 少 钱 
一 个 月 ? ) ， 通 过 Link Capability Register ( 链 路 能 力 寄存 器 ) 了 解 双 
方 各 自 的 链 路 速度 [3: 0] 和 带宽 [9: 4]， 如 图 7-21 所 示 。 


PCIe 链 路 能 力 寄存 天 
31 24 23 222120 19 18 17 15 14 12 11 109 43 0 


Ce 
最 大 链 路 宽带 
图 7-21 PCIe 链 路 能 力 寄 存 器 


2) 假设 贵 司 PCIe SSD 最 高 到 Gen3x4 ( 链 路 速度 Gen3， 带 宽 为 
x4) , Synopsys RC 最 高 到 Gen3x16 ° 


3) 把 你 的 PCIe SSD 插 到 Synopsys 带 来 的 开发 板 上 (Synopsys 
IP， 不 卖 产 品 ) ° 


4) 开机 ， 检 查 你 的 PCIe SSD 被 0S 识 别 到 (过 程 中 可 能 会 提示 安装 
3X5) , TifrLink Status Register 确 定 link 状 态 是 Gen3x4， 如 图 7-22 所 
ZR? 


PCIe 链 路 状态 寄存 器 
15 14 13 12 11 109 43 Ø 


当前 工作 带宽 
当前 链 路 速度 
图 7-22 PCIe Link Status Register 


5) 如 果 你 的 PCIe SSD 还 支持 其 他 lane width 一 一 比如 x1， 用 胶布 或 
者 Reducer 把 lane width 降 到 x1， 重 复 上 述 步 又， 确保 xl 也 能 正 滑 工作 。 


6) Speed 和 Width 正 确 还 不 够 ， 还 需要 做 一 下 简单 的 数据 传输 ， 确 
你 数据 能 顺利 通过 PCIe Bus ° 


PCISIG 贴 心地 为 初 入 江 潮 的 你 提供 了 方便 得 看 PCIe Register 的 工具 
一 -一 PCIIree: http:/www.pcitree.de/ ° 


以 上 都 顺利 通过 ， 把 你 们 俩 的 交手 记录 上 传 到 PCISIG 的 服务 器 
上 ， 继 续 去 找 其 他 RC 或 者 Switch 供应 商 。 


写 在 最 后 ， 台 上 一 分 钟 ， 台 下 十 年 功 ， 为 了 在 Workshop 的 
ma eg 好 的 表现 ， 在 下 山 前 就 应 该 找 来 各 家 的 RC 做 相关 
Jill] i o 


比如 先 定 一 个 能 达到 的 小 目标 ，Intel、ASUS、Gigabyte 最 新 、 次 
新 的 主板 来 个 10 块 ， 开 机 上 电 检 查 Link Speed/width， 每 台 机 器 先 过 个 
200% (此 处 需要 Automation) ° 


7.7 WA 测试 
WA 的 计算 公式 : WA= 内 存 写 入 的 数据 量 / 主 机 写 入 的 数据 量 。 


只 要 知道 了 A (内 存 写 入 的 数据 量 ) 和 B (主机 写 入 的 数据 量 ) 就 
可 以 知道 WA 了 。 


这 两 个 数据 ， 从 哪里 拿 ” 从 SMART 信息 里 。 


《【 原 创 】 浴 室 谈 SSD 的 SMART 信息 》 里 面 列 举 了 几 款 SSD 产 品 
的 SMART 信息 ， 如 表 7-4 所 示 是 SandForce 12xx/15xx 主 控 的 信息 。 


原文 链接 : http;//bbs.pceva.com.cn/thread-10212-1-1.html ° 


表 7-4  SandForce 12xx/15xx 主 控 SMART 信 息 


属性 
Raw Read Error Rate 底层 数据 读 取 出 错 率 


Retired Block Count 不 可 使 用 的 坏 块 计数 


ET 

RN 

171 编程 错误 计数 

172 擦 除 错误 计数 

174 不 正常 掉 电 次 数 

177 显示 最 大 磨损 块 和 最 小 磨损 块 相差 的 百分比 
187 不 可 修复 错误 计数 


194 显示 温度 的 ， 基 本 可 以 忽略 
195 


On the Fly Reported Uncorrectable 实时 不 可 修复 错误 计数 
Error Count 
196 Reallocated Event Count 重 映 射 坏 块 计数 
— SSD 剩余 寿命 (新 盘 为 100， 显 示 为 10， 代 表 P/E 用 完了 ,但 是 还 有 
231 SSD Life left 3 EEE a —— (€ € 
备用 空间 可 以 蔡 换 ， 显 示 0 则 代表 盘 上 数据 为 只 读 ) 
241 lifetime write from host 来 自主 机 的 写 人 数据 量 总 数 
242 lifetime read from host 来 自主 机 的 读 取 数据 量 总 数 


编号 属性 
9 sC 
itd 


可 以 看 到 241: Lifetime write from host 就 是 “主机 写 入 的 数据 量 ”。 


这 张 表 里 没 有 “闪存 写 入 的 数据 量 ”， 引 入 第 二 个 公式 : NESA 
数据 量 = 平 均 Wear Leveling countxSSD 容 量 (这 个 好 理解 吧 ) 。 


SSD 容 量 大 家 都 知道 。Wear Leveling count， 在 上 面 这 张 表 里 没 
有 ， 但 是 有 “172Erase Fail Count. ( 擦 除 错误 计数 ) ”和 “177Wear-Range 
Data (显示 最 大 磨损 块 和 最 小 磨损 块 相差 的 百分比 ) ”。 说 明 FW 其 实 统 
il f Wear Leveling count， 只 是 没有 显示 出 来 。 


这 篇 文章 里 提 到 了 另外 一 款 SSD 一 美光 C300， 其 包括 Marvell 
88SS9174 主 挖 和 美光 上 自己 的 固件 ， 就 直接 公布 了 参数 :“173Wear 
Leveling Count. (平均 擦 写 次 数 ) ”， 但 没有 公布 “241Lifetime write from 
host" ° 


上 壕 这 些 在 内 部 测试 的 时 候 都 不 是 问题 ， 请 FW 的 兄弟 们 把 这 两 项 
都 显示 出 来 ， 测 试 工 程 师 可 以 计算 目 家 SSD 的 WA 了 。 


7.8 耐久 度 测试 


一 款 SSD 出 货 前 必须 要 经 过 严格 的 耐久 度 (Endurance) 测试 ， 简 
单 说 来 就 是 SSD 有 多 经 用 。JEDEC 有 两 份 SSD Endurance 测 试 的 协议 ， 


分 别 是 : 


JESD 218A: 测试 方法 。 
JESD 219: workload ° 
首先 需要 了 解 如 下 概念: 
TBW: 总 写 入 数据 量 。 


:FFR (Function Failure Requirement) : 整个 写 入 过 程 中 产生 的 累 
计 功 能 性 错误 。 


Data Retention: 长 时 间 不 使 用 (EE) 情况 下 保持 数据 的 能 力 。 


‘UBER (Uncorrectable Bit Error Rate) : UBER=number of data 
errors/number of bits read ° 


企业 级 和 消费 级 SSD 在 耐久 度 的 要 求 上 是 不 同 的 ， 体 现在 : 
:工作 时 间 ; 
工作 温度 ; 
UBER; 
.Retention 温 度 以 及 时 间 。 
具体 数据 如 表 7-5 所 示 。 
47-5 ”消费 级 与 企业 级 SSD 可 靠 性 测试 要 求 


类 工作 负载 工作 条 件 数据 保存 FFR (Functional Failure UBER Requirement 
(参考 JESD219 )| (EES) ”|( 断 电 状 态 )|Requirement) 功能 性 失效 要 求 | 不 可 恢复 误 码 率 
ma ma fes a poea [mm 


scam jocs] mm | 


企业 级 企业 级 


虽然 叫 耐 久 度 测试 ， 但 是 218 其 实 是 包括 了 耐久 度 和 数据 保持 
(Data Retention) 两 部 分 测试 的 ， 官 方 给 的 方法 有 两 种 : 


直 来 直 去 法 。 


-Direct method 


‘Extrapolation method 


DEAA ° 


: 本 书 着 重 解释 Direct method， 理 解 了 它 以 后 ， 改 一 个 方法 束 很 容易 
理解 了 。 


Direct method， 人 简单 来 说 ， 惑 是 使 劲 写 ， 可 劲 读 ， 套 用 贝 苑 的 口头 
禅 : “Push the SSD to limit”， 在 这 个 过 程 中 ， 要 注意 


EOKA re a 


.必须 用 指定 的 workload; 


耐久 度 测试 以 后 马上 进行 数据 保持 测试 


在 详细 介绍 这 些 之 前 ， 首 先 要 搞 明 日 一 个 问题 ， 应 该 拿 多 少 块 SSD 
跑 耐 久 度 测试 ? 


要 求 一 : 如 果 该 系列 SSD 首 次 进行 测试 ， 选 取 的 SSD 要 来 目 至 少 三 
个 不 连续 的 生产 批 次 ， 如 果 不 是 首次 ， 选 一 个 批 次 的 就 行 。 


要 求 二 : 制定 标准 时 直接 给 了 两 个 公式 。 
.UCL (functional failures) «FFRxSS (for Functional Failure) 


UCL (data errors) «min (TBW, TBR) x8x107? xUBERxSS (for 
Data Failure) 


如 条 只 看 公式 ， 你 可 能 会 跟 我 一 样 ， 一 脸 懂 。 其 中 : 


-Functional failure: 可 以 接受 的 出 现 功能 故障 的 SSD 的 数量 ; 


Data error: 可 以 接受 的 数据 出 错 的 数量 ; 
TBW, TBR: 总 写 入 / 读 取 量 ; 
‘SS: Sample Size， 束 是 我 们 要 求 的 X (用 多 少 块 盘 测 试 ) 


‘UCL: A confidence Limit %žt, ETE E. RHET, 
直接 查 表 就 行 〈 见 表 7-6) ° 


37-6 ”UCL 函数 查 值 表 


AL n AL n AL n n 
0 0.92 20 21.84 40 42.30 82.97 
1 2.03 21 22.87 41 43.32 83.98 
2 3.11 22 23.89 42 44.35 84.99 
3 4.18 23 24.92 43 45.36 86.00 
4 5.24 24 25.94 44 46.38 87.02 
5 6.29 25 26.97 45 47.40 88.03 
6 7.34 26 28.00 46 48.42 89.05 
7 8.39 27 29.02 47 49.43 90.06 
8 9.43 28 30.04 48 50.46 91.08 
9 10.48 29 31.07 49 51.47 92.08 
10 11.52 30 32.09 50 52.49 93.10 
11 12.55 3l 33.12 51 $3.51 94.11 
12 13.59 32 34.14 52 54.52 95.13 
13 14.62 33 35.16 53 55.55 96.14 
14 15.66 34 36.18 54 56.56 97.15 
15 16.69 35 37.20 55 51:38 98.16 
16 17:72 36 38.22 56 58.60 99.18 
17 18.75 37 39.24 57 59.61 97 100.19 
18 19.78 38 40.26 58 60.63 98 101.21 
19 20.81 39 41.29 59 60.64 102.22 


通常 我 们 直接 用 AL=0 (AL=0 代 表 没 有 functional failure) ， 这 样 对 
应 的 UCL 就 是 0.92。 


这 里 结合 一 个 实际 的 例子 说 明 ， 假 设 FFR=3%，UBER=10-16 ， 
TBW=100， 代 入 公式 得 到 : 


.SS>0.92/ (0.03) 730.1 
.SS>0.92/ (100x1x8x10P? x1016 ) =11.5 


两 个 SS 分 别 能 够 满足 Functional Failure 和 Data Failure 的 要 求 ， 取 两 
者 之 间 的 较 大 值 30.1， 所 以 需要 的 跑 测 试 的 SSD 数 量 是 31 块 。 


再 把 SS=31 代 入 公式 : UCL (data errors) <100x1x8x1012 x10-16 
x31=2.48 


用 2.48 这 个 值 去 表 ( 见 表 7-7) 里 反 查 ， 得 到 允许 的 最 大 data errors 
数量 为 1 。 


表 7-7 表格 反 查 获得 最 大 Data Error 值 


AL n AL n 
0 0.92 20 21.84 
28 i 2.03 21 22.87 
2 3.11 22 23.89 
3 4.18 23 24.92 
4 5.24 24 25.94 
5 6.29 25 26.97 
6 7.34 26 28.00 
7 8.39 27 29.02 
8 9.43 28 30.04 
9 10.48 29 31.07 
10 11.52 30 32.09 
11 12.55 31 33.12 
12 13.59 32 34.14 
13 14.62 33 35.16 
14 15.66 34 36.18 
15 16.69 35 37.20 
16 17.72 36 38.22 
17 18.75 37 39.24 
18 19.78 38 40.26 
19 20.81 39 41.29 


总 结 : 3RR, WEMA, A85 Functional failure, 3x 
多 可 以 有 1 个 Data-error， 测 试 才 会 通过 。 


耐久 度 测 试 使 用 的 workload 可 以 从 网 上 下 载 ， 整 个 workload 大 概 有 
4 亿 条 Write、trim、flush 命 令 (消费 级 SSD) ， 每 次 写 完 之 后 需要 read 
回来 确保 数据 是 正确 的 ， 具 体 实现 的 工具 没有 要 求 。 


耐久 度 和 数据 保持 过 程 中 另 一 个 重要 的 因素 就 是 高 低温 。 


具体 的 温度 要 求 如 表 7-8 所 示 ， 可 以 看 到 企业 级 SSD 要 求 比 消费 级 
SSD 高 出 不 少 。 


表 7-8 ”消费 级 与 企业 级 SSD 可 靠 性 测试 温度 要 求 


产品 类 别 工作 条 件 | 数据 保存 | 耐久 度 测 试 温度 要 求 (Endu- | 数据 保持 测试 温度 要 求 (High Temper- 
(上 电 状 态 ) |( 断 电 状态 )| rance Stress Temperature) | ature Retention Stress Temperature ) 
Ramped Approach : 
低温 : T25% 
消费 级 40% 30% 高 温 : 40C T X Tmax 者 
(Client) — |8/MH / X Split-flow Approach: am 
M ARS US en "E i" 500 /| MM /T > 52€ 
V irit. : Roda) Wa 


96 小 时 人 三 66% 


nil: A07C X T S Tux 


(93) 
产品 类 别 工作 条 件 | 数据 保存 | 耐久 度 测试 温度 要 求 (Endu- | 数据 保持 测试 温度 要 求 (High Temper- 
(上 电 状 态 ) |( 断 电 状 态 )| rance Stress Temperature) | ature Retention Stress Temperature) 
Ramped Approach: 
低温 : Tx 25*€ 
企业 级 55*C € 高 温 : 60C<S T X Tmax - 
= | ET ; . : A 
(Enterprise) | 24 小 时 /天 |3 P AN Approach: 500 小 时 /7 三 52% 
低温 : T « 25% 


miu: 60€ T€ 


控制 温度 变化 有 两 种 策略 : 


96 小 时 /TT 三 66 


:Ramped-Temperature approach: 所 有 SSD 放 在 一 起 ， 在 高 低温 间 来 
回 切换 。 


"Split Flow approach: 所 有 SSD 分 两 六， 一 六 进行 低温 测试 ， 一半 
进行 高 温 测 试 。 


低温 没有 问题 ， 要 求 <25°C 。 


高 温 的 要 求 是 一 个 区 间 ， 比 如 Client SSD 的 高 温 温 度 区 间 是 
40*C«T«T,4.. ， 高 温 下 限 是 40%C ， 上 限 没有 给 出 具体 数值 。 


在 JESD-218A 的 附录 里 介绍 了 通过 温度 对 Endurance 和 Retention 测 
斌 的 时 间 加 速 作 用 ， 有 兴趣 的 读者 可 以 目 行 参阅 。 其 论证 的 结论 天 是 
温度 越 高 ， 就 能 用 越 短 的 时 间 模 拟 出 对 SSD 进 行 1 年 读 写 的 效果 ， 对 应 
关系 如 表 7-9 所 示 。 


表 7-9 温度 加 速 时 间 对 照 表 


实际 压力 测试 时 间 (小 时 ) Ramped 策略 

企业 级 消费 级 IT. 

Ee 105 

E 101 

wi | 4 | s | 7 | 95 

e: 62 68 33 

nn 90 

cn 89 

nd 88 

2500 72 


以 第 一 行为 例 ， 采 用 Ramped temperature 方 式 ， 当 高 温 达 到 86?°C 
时 ， 对 一 块 盘 进行 50 小 时 的 恋 殷 (必须 用 官方 的 workload) 能 够 达到 和 常 
温 下 一 年 的 效果 。 


而 同样 的 SSD， 如 果 高 温 只 有 48°C (最 后 一 行 ) ， 必 须 跑 3000 小 
时 的 读 写 才 能 达到 一 样 的 效果 。 


那 皇 样 确定 这 个 Tnax 呢 ? 我 理解 的 步 又 是 这 个 样子 : 


-根据 SSD 容 量 计算 器 TBW， 比 如 160GB 的 TLC SSD， 按 PE cycle 
500 计 算 其 TBW 应 该 是 80TB 。 


-workload —ji8 7j 1TBW ° 
.那么 总 共 需 要 把 workload 跑 上 80 遍 


.假设 跑 一 遍 workload 需 要 5 个 小 时 。 


那么 总 时 间 就 是 400 小 时 。 


:在 表 7-9 中 找到 与 400 小 时 对 应 的 温度 为 66°C (Client SSD, 
Ramped) ， 这 个 就 是 T ， 值 。 


有 了 workload， 知 道 了 温度 范围 ， 就 可 以 正式 跑 Endurance 测 试 
了 ， 图 7-23 是 Direct Method 使 用 Ramped approcah 的 流程 图 。 


取样 (章节 7.1) 


耐久 度 测试 (章节 7.13) 
温度 控制 (章节 7.1.3 ) 


(可 选 ) 天 件 级 室温 数据 
保持 测试 (章节 7.1.5.2) 


数据 写 人 (章节 7.14) 


(可 选 ) 设备 级 室温 数据 
保持 测试 (章节 7.1.5.1) 


高 温 数 据 保 持 测试 
(章节 7.1.4) 


数据 比较 (章节 7.1.4) 


标准 判定 (章节 7.1.1 ) 


图 7-23 ”SSD 耐久 度 测试 Direct Method Ramped Approach ýE K] H 
从 上 到 下 整个 过 程 分 别 是 : 


Sample 取 样 ， 确 定 用 多 少 块 SSD 测 试 ; 
耐久 度 测试 ; 

部 件 级 常温 数据 保持 测试 (可 选 ) ; 

写 入 数据 ， 为 了 后 面 的 数据 保持 测试 ; 
) 产品 级 常温 数据 保持 测试 〈 可 选 ) ; 
) 高 温 数据 保持 ; 

7) 数据 比较 ; 
) 


判断 是 否 通 过 (检查 FFR 和 Data_error 是 否 满足 前 面 那 两 个 公 


a 


步骤 1、2 已 经 介绍 过 ， 步 骤 3 一 7 都 是 关于 Data retention 的 ， 这 个 测 
试 要 求 在 耐久 度 测 试 结束 以 后 马上 进行 : 5S AZius ^ WrFa o mil o E 
电 一 数据 比较 。 


而 对 于 某 个 系列 的 首次 耐久 度 测 试 ， 还 要 求 进 行 常温 数据 保持 测 
试 ， 详 细 情 况 可 以 参考 JESD218A 7.1.5 测 试 标准 。 


最 后 简单 提 几 名 Extrapolation method， 说 白 了 就 是 用 各 种 方法 在 最 
短 的 时 间 完 成 Endurance 测 试 ， 比 如 : 


修改 workload， 在 更 短 的 时 间 内 造成 更 多 的 PE cyce (修改 随机 / 顺 
序 访问 占 比 ， 传 输 数 据 大 小 ， 引 发 更 多 background activity) 


限制 SSD 的 大 小 ， 比 如 把 前 面 的 160G SSD 通 过 固件 限制 为 40G 可 
用 ， 那 么 所 需要 的 Endurance 时 间 就 直接 从 400 小 时 降低 到 100 小 时 〈 相 
应 高 温 需 要 从 66°C 调整 为 79*C) ， 如 图 7-24 所 示 。 


实际 压力 测试 Pus e 


时 间 (小 时 ) 


图 7-24 ”通过 提高 温度 减少 可 靠 性 测试 的 时 间 


特别 要 注意 的 是 ， 固 件 在 限制 大 小 的 时 候 ， 不 仅 要 限制 开放 给 主 
机 的 读 写 区 域 ， 同 时 内 部 的 OP 空间 也 必须 同样 等 比例 缩小 。 


[1] 图 中 的 章节 为 该 测试 规范 中 的 章节 。 


7.9 认证 Certification 


一 款 SSD 研 发 出 来 ， 除 了 内 部 的 层 层 测试 ， 也 少不了 送出 去 进行 各 
种 认证 测试 。 


1.SATA-IO Plugfest 和 IW (Interoperability Workshop) 


作为 SATA 协 议 的 官方 组 织 ，SATA-IO 每 年 都 会 组 织 厂 商 一 起 从 
坐 ， 给 大 家 一 个 互相 切磋 的 机 会 进行 兼容 性 、 交 互 性 以 及 新 功能 的 测 


试 。 
图 7-25 所 示 是 2008 年 的 活动 日 程 表 ，Plugfest 三 天 ，IW 五 天 。 


Monday, September29"^, 2008 
8:00 a.m.—9.00 a.m.--Name badges and schedules available at the Grand Ballroom 
9.00 a.m.—10:00 a.m.-Kickoff Meeting, Q&A 
10.00 a.m.—12:00 p.m.- Test Sessions 


12.00 p.m.—-1:00 p.m.—-Hosted Lunch 
1.00 p.m.—5:00 p.m.- Test Sessions 


Tuesday, September30 


Plugfest: 8.00 a.m.—12:00 p.m.- Test Sessions 
e Testing Mon-Wed 12.00 p.m.—-1:00 p.m.-Hosted Lunch 
e G0—min timeslots 1.00 p.m.—5:00 p.m.- Test Sessions 
Wednesday, October 1 Interop Workshop: 
8.00 a.m.—12:00 p.m.- Test Sessions Testing M-F 
12.00 p.m.—1:00 p.m.-Lunch (not hosted) e 2hr Smedlots 


1.00 p.m.—5:00 p.m.—Test Sessions 
5.00 p.m.—Pack-up & shipping (Plugfest only ) 


Thursday, October 2 
8.00 a.m.—12:00 p.m.—Test Sessions (IW only) 
12.00 p.m.—1:00 p.m.-Lunch (not hosted) 
1.00 p.m.—5:00 p.m.- Test Sessions (IW only) 
5.00 p.m.-Pack-up & shipping (IW only) 


Friday, October 3 
8.00 a.m.—12:00 p.m.- Test Sessions (IW only) 


[7-25  SATA-IO Event 日 程 示例 


2.IW 和 Plugfest 有 上 所 不 同 


IW 的 对 象 是 量 产 产 品 ， 由 SATA-IO 主 导 ， 有 固定 的 测试 流程 和 项 
日 ， 并 且 测 试 结果 需要 提交 SATA-IO， 通 过 测试 的 设备 可 以 加 入 


Integrators List ° 


Plugfesth H 25 xe3T ALBTERHJP d, ] BEERE, WA, 
怎么 测 ， 大 家 自己 说 了 算 ， 测 试 结 果 不 用 提交 给 SATA-IO 。 


官方 网 站 上 有 具体 介绍 以 及 报名 方式 .: 


https://www.sata-io.org/plugfests 
https://www.sata-io.org/interoperability-workshops 

3.PCIe SIG Compliance Program 

" 作为 PCIe 协 议 的 官方 组 织 ，PCIe SIG 的 一 致 性 测试 项 目 包 括 以 下 方 


-Electrical Testing: 针对 平台 和 卡 的 Tx 和 Rx 电器 性 能 进行 测试 。 


S 


Configuration Testing: PCIe configuration space 测 试 (Tool: PCIE 
CV) » 


-Link Protocol Testing: 针对 设备 进行 链 路 层 协议 测试 。 
"Transaction Protocol Testing: 针对 设备 进行 传输 层 协议 测试 。 


-Platform BIOS Testing: 针对 平台 BIOS 进 行 测试 ， 判 断 其 能 否 识别 
并 正确 配置 设备 。 


通过 PCIe SIG 的 测试 同样 可 以 加 入 Integrators List ° 


害 方 网 站 上 提供 Test Guide 下 载 ， 包 括 测 试 描述 、 规 格 、 流 程 以 及 
相关 的 工具 : 


https://pcisig.com/developers/compliance-program 


4.UNH IOL NVMe Test 


UNH-IOL 4T Z& University of New Hampshire InterOperability 
Laboratory， 是 业界 著名 的 公开 实验 室 ， 提 供 多 个 领域 的 测试 服务 。 图 
7-26 所 示 为 这 个 实验 室 涉 及 的 领域 。 


€S 加 https://www.iol.unh.edu/solutions/test-tools/interact 
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图 7- 26 IOL 交 互 性 测试 实验 室 涉 及 领域 


UNH-IOL 定 义 了 NVMe Test Suites， 包 括 : 


:NVMe Conformance Test Suite 


:NVMe Interoperability Test Suite 


m Test Suite 会 跟着 NVMe Spec ESEE, ] AAAA 4T PCR 


WERE. https://www.iol.unh.edu/testing/storage/nvme/test-suites 
UNH-IOL 贴 心地 提供 了 NVMe 的 测试 工具 : 


OL INTREACT PC EDITION Software: 基于 UNH-IOL 自 己 的 
NVMe Conformance Test Suite 开 源 项 目的 工具 ， 图 形 界 面 上 手 容易 。 


IOL INTERACT Teledyne-LeCroy EDITION Software: 高 级 版 本 ， 
必须 配合 LeCroy 的 PCIe Exerciser 和 Analyzer 使 用 ， 能 够 目 动 跑 完 NVMe 
Conformance Test Suite 里 面 要 求 的 测试 ， 而 且 能 够 目 动 抓 取 trace 以 供 分 
析 。 


链接 : https://www.iol.unh.edu/solutions/test-tools/interact 


人 免费 是 为 了 更 好 地 收费 ， 如 果 使 用 UNH-IOL 的 测试 服务 并 完成 下 
列 指 定 项 目 ， 束 可 以 加 入 NVMe Integrators List: 


‘Conformance testing using IOL INTREACT PC EDITION Software; 


‘Conformance testing using IOL INTERACT Teledyne-LeCroy 
EDITION Software; 


Interoperability testing using VDbench software ° 


WEBER. https://www.iol.unh.edu/testing/storage/nvme ° 


7.10 SSD Performance 测 试 


SNIA 给 Client SSD 与 Enterprise SSD 都 制定 了 Performance Test (性 
能 测试 ) 的 规范 ， 可 以 到 其 网 站 www.snia.org 下 载 。 


要 进行 SSD 的 Performance Test， 首 先 要 理解 儿 个 关键 概念 。 

‘FOB: Fresh Out of Box， 指 的 是 刚 开 封 、 全 新 的 盘 ， 此 时 SSD 的 
性 能 类 似 于 悟 饭 同 学 的 丑 怒 形态 ， 战 斗 力 娄 表 但 不 持久 ， 这 并 不 是 这 
块 一 在 未 来 正常 使 用 过 程 中 的 真实 能 力 。 

Transition: 经 过 一 段 时 间 的 读 写 ， 战 斗 力 了 逐步 降低 ， 趋 同 于 稳定 
状态 ， 这 个 过 程 称 为 转换 状态 。 


'Steady State: 战斗 力 数值 稳定 在 一 个 区 间 ，Performance 相 关 的 数 
据 ， 例 如 Throughput 〈 吞 吐 量 ) 、IOPS、Latency (4ER) 都 必须 在 
Steady State 下 获取 ， 据 此 判断 其 到 底 是 超级 赛 亚 人 ， 还 是 战 五 酒 。 


看 看 图 7-27， 不 同 的 盘 Performance 数 据 有 所 不 同 ， 但 趋势 一 样 : 
爆 表 一 下 降 一 稳定 。 


SSD 性 能 曲线 变化 
—D1 MLC 一 D2 MLC —D3 MLC 一 D4MLC 一 D5 MLC 一 D6MLC — D7 SLC 一 D8 SLC 


(理想 测试 区 间 ) 


| | | 
ALII ptit 


300 i 
时 间 (分 钟 ) 


图 7-27 SSD 性 能 变化 趋势 


Steady State (稳定 态 ) 的 判断 原则 是 : 这 段 时 间 内 性 能 波动 不 超 
过 +10%。 


Bt PoR, JHEBALT SES: 


1) Purge GZR) : 每 次 进行 Performance 测 试 前 都 必须 进行 Purge 
动作 ， 目 的 是 消除 测试 前 的 其 他 操作 ( 读 写 及 其 他 测试 ) 带 来 的 影响 
(比如 ， 一段 小 BS 的 随机 读 写 之 后 立即 进行 大 BS 的 顺序 读 写 ， 这 时 候 
大 BS 的 数据 会 比较 差 ) ， 从 而 保证 每 次 测试 时 盘 都 是 从 一 个 已 知 的 、 
相同 的 状态 下 开始 。 简 单 来 说 ， 可 以 把 Purge 理 解 为 : ibzEBISJFOBTA 


o 


X 
JU 
实现 的 Purge 方 法 可 以 是 : 
"ATA: Security Erase, SANTIZIE Device (Block Erase Ext) ° 


‘SCSI: FORMAT UNIT ° 


-Vendor specific method (厂商 的 工具 ) 。 


— 


2) Precondition: 通过 对 盘 进 行 IO 使 其 逐步 进入 Steady State 的 过 
程 ， 分 两 步 进行 。 


-Workload Independent Preconditioning (WIPC) : 第 一 步 ， 读 写 时 
不 使 用 测试 的 Workload 。 


-Workload Dependent Preconditioning (WDPC) : 第 二 步 ， 读 写 时 
使 用 测试 的 Workload ° 


3) Active Range: 测试 过 程 中 对 强 上 LBA 发 送 IO 命令 的 范围 ， 如 
图 7-28 所 示 。 


0% 


— 


Active Range ( 0:100 ) Active Range ( 0:75 ) 
图 7-28 SSD 性 能 测试 有 效 测试 范围 


4) Data pattern: Performance 测 斌 必须 使 用 随机 数据 (向 内 存 中 写 
入 的 数据 ) 。 


基本 测试 流程 : 


1 


— 


p 


Purge the device: 探 除 SSD ° 


2) Run Workload Independent Precondition: 比如 用 128K 的 BS 顺序 
JE Zi 55 PAD 


3) Run Test. (包括 Workload Dependent Precondition) : 设置 好 相 
关 参 数 (OIO/Thread ` Thread count ` Data Pattern 等 ) 后 开始 进行 
Workload Dependent Precondition， 最 多 跑 25 个 round 。 


4) 假设 在 25 个 round 以 内 达到 了 Steady Status， 例 如 第 x 次 。 那 么 : 
.Round 1: x 称 为 Steady Status 收 敛 区 间 ; 
.Round (x-4) : 4 称 为 测量 区 间 (Measure Window) 。 
5) 如 果 25 个 round 还 没有 达到 Steady Status， 可 以 选择 : 
.继续 步骤 3 直到 达到 Steady Status 并 记录 x; 
.直接 取 x=25 。 
注意 :， 步骤 2 到 步骤 3 之 间 不 可 以 中 断 、 停 顿 。 
Performance 测 试 项 目 包 括 IOPS 测 试 、Throughput 测 试 、Latency 测 
试 和 饱和 写 测 试 〈 可 选 ) e 
以 IOPS 测 试 为 例 说 明 : 
1) Purge SSD 
2) Workload Independent Preconditioning: 用 128K 的 BS 把 SSD 写 两 
Mh o 
3) Workload Dependent Preconditioning and Test 。 


:用 RW Mix (100/0 ` 95/5 ` 65/35 ` 50/50 ` 35/65 ` 5/95 ` 0/100). ^ 
BS (1024KB ` 128KB ` 64KB ^ 32KB ^ 16KB ^ 8KB ^ 4KB ` 512B) 组 


合 进 行 Random IO ° 
.每 个 Round 包括 7x8=56 个 组 合 ， 每 个 组 合 跑 一 分 钟 并 记录 结 


:以 RW Mix=0/100，BS=4KB 这 个 组 合 的 IOPS 结 果 判 断 是 否 到 达 
Steady State. (5 Bil X Steady State 判 断 标 准 ) 。 


:在 测量 区 间 (Measure Window) 记录 相关 数据 。 
Throughput 测 试 和 Latency 测 试 的 步骤 大 致 相同 ， 需 要 注意 的 是 ; 
Throughput 测 试 : 只 有 两 个 组 合 一 一 BS=1024K Sequential Write 和 


BS=1024K Sequential Read， 用 Sequential Write 的 值 来 判断 Steady 
Status ° 


.Latency 测 试 : 只 使 用 3 种 RW Mix£H (100/0 ^ 65/35 ` 0/100) 和 3 
种 BS (8K^ 4K ` 512B) ， 另 外 需要 把 队列 数 和 线程 数 都 设 为 1。 


饱和 写 测试 (Write Saturation Test, WST) ， 对 SSD 进 行 长 时 间 的 
Random 4K 写 操作 ， 评 测 其 经 过 长 期 写 入 以 后 的 表现 。 


天 于 饱和 写 测 试 ， 国 外 知名 网 站 TechReport.com 的 弟兄 们 曾经 花 了 
18 个 月 ， 拿 了 6 块 不 同 厂商 的 SSD 进 行 了 “ 惨 无 人 道 ”* 的 、 超 过 2PB 的 连 
续 写 入 操作 。 


原文 链接 : http;//techreport.com/review/24841/introducing-the-ssd- 
endurance-experiment ? 


中 文 链接 : http://www.ssdfans.com/?p-672 ° 
Performance 测 试 项 目 配置 总 结 如 表 7-10 所 示 。 


表 7-10 SSD 性 能 测试 配置 


测试 项 目 读 写 比例 Benchmark 
IOPS 100/0 ~ 0/100 Write BS=4KB 
fent 100/0, 0/100 Write BS-1MB 
Il iE 100/0, 65/5. 0/100 | .512B. 4KB. 8KB | | | 

MR T 


Ag  SSDFBRJIBT I 


与 传统 硬盘 相 比 ，SSD 不 仅 具 备 更 高 的 读 写 速度 ， 能 耗 上 也 有 非 
常 大 的 优势 。 本 章 从 SATA 链 路 、PCIe 链 路 、NVMe 协 议 以 及 SSD 内 部 
主 控 管理 等 方面 介绍 SSD 上 的 电源 管理 技术 。 


8.1 SATA 省 电 模 式 Partial 和 和 Slumber 


SATA 链 路 电源 管理 ， 可 以 计 SATA 链 路 的 PHY 进 入 低 功 耗 模式 ， 与 


硬盘 或 者 SSD 其 他 部 分 (CPU、DDR、 后 端 ) 的 电源 管理 是 完全 独立 
i 。 以 硬盘 为 例 ，SATA 链 路 的 电源 状态 与 盘 片 的 转 数 快慢 是 相互 独立 


SATA 提 供 了 两 种 低 功 耗 模式 : Partial 和 Slumber ° 
:Partial 模 式 : PHY 处 于 低 功 耗 状态 ， 退 出 时 间 要 求 < 10ps ° Partial 


是 让 部 分 物理 层 (PHY) 电路 进入 休眠 模式 ， 能 够 在 10hs 内 被 唤醒 ， 


证 链 路 在 不 太 影 啊 传 输 性 能 的 情况 下 忙 里 偷 虾 ， 休 县 一 下 。 
:Slumber 模式 : PHY 处 于 更 低 功 耗 状态 ， 退 出 时 间 要 求 < 10ms。 与 


Partial 模 式 相 比 ，Slumber 天 闭 更 多 的 电路 ， 因 此 它 的 恢复 要 慢 一 些 ， 


恢复 时 间 大 约 为 10ms。 当 预测 有 一 段 相 对 长 的 Idle 时 间 时 ， 会 让 链 路 好 
SPAN 


降低 到 了 100mW 左 右 。 
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Partial 和 Slumber 两 种 模式 的 功 耗 和 时 延 


在 图 8-1 中 可 以 看 到 PartiaySlumber 把 功 耗 从 Active State 的 1000mW 


恢复 时 间 (ms) 


在 链 路 电源 管理 方面 ，SATA 一 视 同 仁 ， 主 机 和 设备 都 可 以 发 起 ， 
分 别称 为 : 
.HIPM (Host Initiated Power Management) 
‘DIPM (Device Initiated Power Management) 
发 起 归 发 起 ， 还 是 需要 对 方 配合 ， 才 能 让 链 路 进入 Partial 或 者 
Slumber 模 式 。 具 体 做 法 是 这 样 的 ， 以 主机 发 起 为 例 : 
:主机 发 送 一 个 PMREQ_P (请 求 进入 Partial) 给 设备 (如果 发 
PMREQ_S 就 是 请 求 进 Slumber) ; 
设备 回复 PMACK (同意 ) 或 者 PMNAK (不 同意 ) ; 
:如果 设备 回复 同意 ， 两 边 一 起 进 Partial (一 般 接收 方 都 会 发 送 多 个 
PMACK 以 确保 发 起 方 收 到 ) ; 
.如 果 回 复 不 同意 ， 那 就 什么 都 不 发 生 ; 
.如 果 需 要 退出 Partial 或 者 SIumber， 需 要 通过 OOB 重 新 建立 连接 。 


其 他 知识 点 : 
-Listen Mode ( 侦 听 模式 ) : AHCI 支 持 让 没有 接 极 的 端口 进入 侦 听 
模式 ， 此 时 该 器 口 的 功 耗 水 平 相当 于 Slumber， 但 是 该 端口 可 以 识别 新 
接 入 的 盘 。 
-Auto Partial to Slumber: 可 以 让 链 路 不 需要 回 到 Active 状 态 ， 直 接 
从 Partial 进 入 Slumber 模 式 。 


8.2 SAITA 超 级 省 电 模 式 DevSlp 


MSATA 3.2 开 始 ，SATA 有 了 一 个 新 的 功能 DevSlp (Device Sleep, 
设备 睡眠 ) 。DevSlp 是 一 个 信和 号， 通过 发 送 这 个 信号 让 盘 进 入 一 个 非 
党 省 电 的 状态 。 


前 文 介绍 过 SATA 人 允许 盘 进 入 省 电 模 式 ， 即 Partial 和 Slumber 模 式 。 
Partial/Slumber' AERA P, ZEB AVE B CAIR S LER PRREE L 
ERI, DLEYESATASEPLSS SEES EET ARAE o "nÉdS-2PTZR, NEA 


Partial 或 SIlumber 后 ，SATA 总 线 的 发 送 模块 和 接收 模块 仍然 处 于 工作 状 
态 ， 因 为 这 个 原因 ， 强 睡 得 并 不 安稳 ， 省 电 效 果 也 不 好 。 


Host Device 


SATA 物理 层 
SATA 接口 ee Partial: 恢复 时 间 10hs 
SATA 总 线 Slumber: 恢复 时 间 10ms 


(发 送 端 /接收 端 ) 


设备 控制 器 


图 8-2 主机 与 设备 链接 示意 图 


DevSlp 就 是 把 这 个 传输 电路 完全 关 掉 ， 然 后 专门 加 了 一 个 低速 的 
管 脚 来 负责 接收 唤醒 通知 ， 如 图 8-3 所 示 。 


Host Device 
SAIA 物理 层 
昌国- 二 |---------------------- Partial: 恢复 时 间 10us 
Slumber: 恢复 时 间 10ms 


SATA 总 线 


设备 控制 器 
世 片 组 支持 DEVSLP myn p. 默认 恢 复 时 间 20ms 


知 物理 层 断 电 


图 8-3 DEVSLP 的 带 外 信号 

DevSlp 模 式 效 果 如 图 8-4 所 示 ， 功 耗 降低 到 了 5mW 左 右 ， 而 恢复 时 
间 进 一 步 延 长 至 20ms， 但 其 实 PC 用 户 根 本 感觉 不 出 10ps、10ms、20ms 
的 区 别 。 

那么 问题 来 了 ， 这 个 多 出 来 的 管 脚 从 哪里 来 ? 

原本 标准 的 2.5/3.5 寸 SATA 接 口上 已 经 没有 多 余 的 管 脚 了 了，SATA 
3.2 把 管 脚 3 单独 拿 出 来 用 于 DevSljp， 而 原本 管 脚 1、 管 脚 2 和 管 脚 3 是 用 
于 3.3V 管 脚 供 电 的 。 


表 8-1 列 出 了 SATA 3.0 的 管 脚 定义 。 
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表 8-1 SATA 3.0 管 脚 定 义 
名 称 类 型 描述 线 缆 形式 背 板 形式 
S1 GND 1* Mate 2" Mate 
S2 A+ 2 Mate 3" Mate 
差分 信号 组 A 2 z 
S3 A- 2™ Mate 3* Mate 
信和 号 部 分 S4 GND 1* Mate 2*3 Mate 
S5 B- T 2? Mate 3" Mate 
差分 信号 组 B E 
S6 B+ 2™ Mate 3™ Mate 
S7 GND 1* Mate 2" Mate 
Pl V33 3.3V Power 2*3 Mate 37 Mate 
P2 V33 3.3V Power 2*3 Mate 3" Mate 
P3 V33 3.3V Power, Pre-charge 1* Mate 2™ Mate 
P4 GND 1* Mate 1* Mate 
l P5 GND 1* Mate 2" Mate 
电源 部 分 d 
P6 GND 1* Mate 2™ Mate 
P7 V5 5V Power, Pre-charge 1* Mate 2" Mate 
P8 v5 5V Power 2" Mate 3? Mate 
P9 VS 5V Power 2™ Mate 3? Mate 
P10 GND 1* Mate 2*3 Mate 


到 了 SATA 3.2， 管 脚 3 用 来 做 DevSlp 控 制 ， 如 表 8-2 所 示 。 


表 8-2 SATA 3.2 管 脚 定义 一 管 脚 3 用 于 DevSlp 


名 称 类 型 描述 线 缆 形 式 背 板 形式 
S1 GND 1* Mate 2" Mate 
S2 A+ -— 2" Mate 3" Mate 
S3 A- ERTA 2” Mate 3" Mate 
信和 号 部 分 S4 GND 1* Mate 2™ Mate 
$5 B- dard 2" Mate 3" Mate 
S6 B+ 莽 分 信 SEB 2*3 Mate 3? Mate 
S7 GND 1* Mate 2*3 Mate 
P1 Retired 2"! Mate 3? Mate 
P2 Retired | 2 Mate 3? Mate 
P3 DEVSLP HE / Hi DevSleep 1* Mate 2™ Mate 
P4 GND 1* Mate 1* Mate 
电源 部 分 P5 GND 1* Mate 2" Mate 
P6 GND 1* Mate 2™ Mate 
P7 VS 5V Power, Pre-charge 1* Mate 2" Mate 
P8 V5 5V Power 2™4 Mate 3 Mate 
P9 v5 5V Power 2™ Mate 3? Mate 
P10 GND 1* Mate 2™ Mate 


DevSlp 注 意 事项 : 

主机 和 设备 都 必须 文 持 该 功能 才 可 以 工作 ， 主 机 置 位 DevSlp 信 和 号 
前 需要 确保 : OOB 结 束 以 后 通过 Identify Device 命 令 获 得 的 设备 回复 支 
持 DevSlp ° 

.主机 已 经 通过 Set Feature 命 令 打 开设 备 的 DevSlp 。 

-没有 还 没 执行 完 的 命令 。 

主机 置 位 DevSlp 时 : 


.MDAT (Minimum Device Sleep Assertion Time: 主机 要 么 不 弄 ， 
要 和 弄 必 须 保持 置 位 状态 >10ms (或 者 是 Identify Device Data log 里 规定 的 
时 间 ) ; 


:DMDT (DEVSLP Minimum Detection Time) : 设备 在 DevSlp 置 位 
后 需要 在 10us 内 检测 到 ; 


P (PLL ` Eb Bh > AER) 都 


, 


.DevSlp 置 位 后 ， 主 机 和 设备 双方 都 不 可 以 主动 通过 PHY 进 行 通 
信 ， 即 使 一 方 通信 ， 男 一 方 也 不 准 搭 理 。 


退出 DevSlp 时 : 


-DETO (Device Sleep Exit Timeout) : 设备 必须 在 20ms (或 者 
Identify Device Data log 里 规定 的 时 间 ) 内 检测 到 OOB 信 号 ; 


:双方 使 用 COMWAKE 或 者 COMRESET/COMINIT 重 新 建立 连接 。 


图 8-5 展 现 了 DevSlp 的 进入 /退出 流程 。 
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图 8-5 “DEVSLP 过 程 示 意图 


8.8 SATA 终 极 省 电 模 式 RITD3 


DevSlp 那 么 好 ， 主 机 却 仍 不 满足 ， 因 为 DevSlp 虽 然 功 耗 小 ， 恢 复 
时 间 也 还 行 ， 但 是 进入 DevSlp 的 时 候 Vcc 还 在 ， 这 样 还 是 会 有 功 耗 ， 进 
而 得 寸 进 尺 地 要 求 设备 在 长 期 Idle 后 要 把 Power 完 全 关 掉 。 

在 两 者 的 博弈 当中 ，SATA SSD 作 为 设备 永远 是 弱势 的 一 方 ， 所 以 
需要 考虑 如 何 满足 这 个 要 求 : 在 主机 也 就 是 系统 处 于 S0 的 情况 下 ， 如 
何 让 SATA SSD 进 入 D3Cold 状 态 ， 这 个 束 是 Runtime D3， 人 简称 RTD3。 

了 解 以 下 概念 能 够 更 好 地 理解 RTD3 ° 

ACPI 规 定 的 Device Power State: 


D0: 设备 处 于 工作 状态 ， 所 有 功能 可 用 ， 功 耗 最 高 ， 所 有 设备 都 
必须 文 持 ; 


.DOactive: 设备 完成 配置 ， 随 时 准备 工作 ; 

:D1 和 D2 是 介 于 D3 和 D0 之 间 的 中 间 状 态 ，D1 比 D2 消耗 更 多 的 电 
能 ， 保 存 更 多 的 设备 上 下 文 ，D1 和 D2 是 可 选 的 ， 很 多 设备 都 没有 实现 
这 两 个 状态 ; 

:D3Hot: 设备 进入 D3，Vcc 还 在 ， 设 备 可 被 软件 枚 举 ; 
" .D3Cold: 设备 完全 切断 电源 ， 重 新 上 电 时 系统 需要 重新 初始 化 设 


表 8-3 列 出 了 不 同 电源 状态 下 功 耗 ， 傈 留 设备 上 下 文 以 及 张 动 恢复 
的 具体 信息 。 


表 8-3 不同 电源 状态 的 具体 信息 
SERE WERE 
us | 

: 


D0 - Fully On 


D0>D1>D2>D3hot>D3 


设备 状态 保留 设备 上 下 文 驱动 恢复 
D2 >D1 
D3 Hot 重新 初始 化 并 加 载 驱动 
D3 Cold 


重新 初始 化 并 加 载 驱 动 


图 8-6 展 现 了 这 些 状 态 之 间 的 转换 关系 。 


图 8-6 ”设备 Power State 转 换 关 系 


Partial 和 Slumber 模 式 都 是 只 针对 SATA 链 路 ， 而 D State 是 针对 整个 
SSD， 如 图 8-7 所 示 。 


功 耗 


Device = DO Device = D1 | Device = D2 | Device = D3 


PHY= PHY= PHY= PHY= PHY= PHY= 
Resdy Partial | Slumber Slumber Slumber Slumber 


恢复 时 间 


图 8-7 ”Partial 和 Slumber 模 式 与 不 同 电 源 状态 之 间 的 对 应 天 系 


系统 电源 状态 (SATA SSDIEJJRZRIX) : 


S0: 工作 模式 ， 操 作 系 统 可 以 管理 SATA SSD 的 电源 状态 ，D0 或 
者 D3 都 可 以 ; 


.Ss1， 低 唤醒 延迟 的 状态 ， 系 统 上 下 文 不 会 丢失 (CPU 和 芯片 
组 ) ， 硬 件 负责 维持 所 有 的 系统 上 下 文 ; 


.S2: 与 S1 相 似 ， 不 同 的 是 处 理 器 和 系统 Cache 上 下 文 会 丢失 (操作 
系统 负责 维护 Cache 和 处 理 器 上 下 文 ) ， 收 到 唤醒 要 求 后 ， 从 处 理 器 的 
复位 向 量 开 始 执行 ; 

.S3: 睡眠 模式 (Sleep ，CPU 不 运行 指令 ，SATA SSD 断 电 ， 除 
了 内 存 之 外 的 所 有 上 下 文 都 会 丢失 ， 硬 件 会 保存 一 部 分 处 理 器 和 
L2Cache 配 置 上 上 下文， 从 处 理 絮 的 复位 癌 量 开始 执行 ; 

.S4: 休眠 模式 (Hibernation) ，CPU 不 运行 指令 ，SATA SSD 断 
电 ， 内 存 内 容 写 入 SSD， 所 有 的 系统 上 下 文 都 会 丢失 ， 操 作 系 统 负 责 上 
下 文 的 保存 与 恢复 ; 


.S5: Soft off state， 与 $4 相似 ， 但 操作 系统 不 会 保存 和 恢复 系统 上 
下 文 ， 消 耗 很 少 的 电能 ， 可 通过 己 标 键 益 等 设备 唤醒 。 


注意 事项 : 


m 1) 需要 主板 芯片 组 、 操 作 系 统 和 SSD 三 方 都 支持 ，RTD3 才 能 工 


2) SSD 可 以 支持 D3Hot 或 者 D3Cold 状 态 ; 


3) SSD 不 需要 做 硬件 改动 ,三家 上 自行 优化 ， 保 证 从 D3 回 到 D0 的 时 
间 不 能 长 到 能 被 用 户 察 觉 ; 
" 4) RTD3 和 DevSlp 功 能 完全 独立 ， 可 以 互 为 补充 ， 更 好 地 服务 主 


5) 操作 系统 通过 发 送 Standby Immediately 命 令 通知 SSD 把 脏 数 据 
写 入 闪存， 然后 把 SSD 切 到 RTD3 状 态 ; 


6) 与 Partial、Slumber 和 DevSlp 不 同 ， 进 了 RTD3 以 后 ，SSD 上 之 前 
了 ， 重 新 上 电 的 时 候 主 机 需要 通过 以 下 命令 恢 
复 之 前 的 设置 : 


‘SET FEATURES 

:DEVICE CONFIGURATION FREEZE LOCK 

'SET MAX FREEZE LOCK 

.SET MAX ADDRESS (If V. V attribute is not used) 
'SECURITY FREEZE LOCK 


表 8-4 显 示 了 不 同 省 电 模式 功 耗 、 转 换 时 间 、 人 恢复 时 延 的 对 比 。 可 
， 使 用 了 RTD3 后 ， 功 耗 为 0， 进 入 时 间 为 1.5$s， 退 出 时 间 为 0.6s。 


表 8-4 不 同 的 省 电 模 式 功 耗 ， 转 换 时 间 ， 恢 复 时 延 对 比 
TE EENS RENEO 


= 


7) 


RTD3 不 是 SATA 设 备 的 专利 ，SATA HBA 也 可 以 。 


8.4 PCIe 省 电 模 式 ASPM 


现在 消费 级 笔记 本 里 搭载 SSD 已 经 越 来 越 多 ， 而 搭载 PCIe SSD, 
正在 成 为 趋势 。 


做 消费 级 SSD 的 厂商 那么 多 ， 但 常见 的 PCIe 主 控 就 那么 几 款 : SMI 
2260、PS5007-E7、88SS1093 和 88NV1140 《三星 这 个 巨 鳄 瓯 不 提 
T) 。 这 些 主 控 都 支持 一 个 叫 ASPM 的 功能 ，ASPM 的 全 称 是 : Active 
State Power Management。 其 实 Active 前 面 还 缺 省 了 两 个 词 ，Hardware 
Initiated -ASPM 的 第 一 个 重要 概念 : 这 是 HW 也 就 是 主 控 自己 触发 
的 ， 不 需要 主机 或 者 固件 干涉 ， 如 图 8-8 中 的 高 亮 部 分 。 


Components in the DO state (ie., fully active state) normally keep their Upstream Link in the active 
LO state, as defined in Section 5.3.2. ASPM defines a protocol for components in the DO state to 
reduce Link power by placing their Links into a low power state and instructing the other end of the 
Link to do likewise. This capability allows 
beyond what is achievable by software-only controlled (Le ,了 
management. 


-PM software driven) power 


图 8-8 PCIe 协 议 对 ASPM 的 定义 截图 
ASPMiEPCIe SSD 在 某 种 情况 下 ， 能 够 从 工作 模式 (D0 状态 ) 通 
过 把 自身 PCIe 链 路 切换 到 低 功 耗 模式 ， 并 且 通 知 对方 也 这 么 干 ， 从 而 
达到 降低 整 条 链 路 功 耗 的 目的 。 


ASPM 定 义 的 低 功 耗 模 式 有 两 种 : L0s 和 L1 ( 见 图 8-9 深 色 部 分 ) 。 


图 8-9 PCIe 链 路 状态 转换 关系 
图 8-9 中 所 示 各 状态 的 定义 如 下 : 
L0: 正常 工作 状态 ; 
LOs: 低 功 耗 模 式 ， 恢 复 时 间 短 ; 
L1: 更 低 功 耗 模式 ， 恢 复 时 间 较 长 ; 
L2/L3Ready: 断 电 前 的 过 渡 状态 ; 
L2: 链 路 处 于 辅助 供电 模式 ， 极 省 电 ; 
L3: 链 路 完全 没 电 ， 功 耗 为 0; 
-LDn: 刚 上 电 ，LTSSM 还 未 完成 前 链 路 所 处 状态 。 


要 看 一 款 $SSD 是 否 文 持 ASPM， 你 需要 查看 它 的 Link Capabilities 
Register ( 链 路 能 力 寄存 器 ) 的 bit 11: 0 ( 见 图 8-10) 


Bit11: 10 (只 读 属 性 ) 中 对 ASPM 文 持 的 具体 定义 如 下 : 
00b: 保留 。 

-01b: 文 持 L0s。 

10b: 保留 。 


.11b: 支持 LOs 和 L1。 


Link Capabilities Register ( 链 路 能 力 寄 存 需 ) 
31 24 23 22 21 20 19 18 17 15 14 1211 109 43 0 


ASPM 支持 


设置 位 


图 8-10” 链 路 能 力 寄存 郁 


仅仅 支持 是 没有 用 的 ， 还 需要 把 开关 打开 ， 查 看 链 路 控制 寄存 器 
的 bitl1: 0， 如 图 8-11 所 示 。 


Link Control Register ( 链 路 控制 : * in ) 
1211110 9 8 7 & 5 


ASPM 控制 


设置 位 


图 8-11 链 路 控制 寄存 器 
Bitl: 0 (可 读 写 属性 ) 中 对 ASPM 控 制 的 具体 定义 如 下 : 
-00b: 禁用 。 


o 


01b: L0s 使 能 e 

.10b: L1 使 能 。 

:11b: LOs 和 L1 均 使 能 。 

关于 ASPM 控 制 ，PCIe 协 议 手 册 中 这 样 描述 : 

:LO0s， 即 使 RC 和 EP 某 一 方 的 L0s 是 关闭 的 ， 如 果 对 方 要 求 进入 


， 本 方 也 要 跟着 进 ; 


LL1， 打 开 时 必须 先 开 RC， 再 开 EP， 关 掉 时 必须 先 关 EP 再 关 RC:; 
:如果 RC 和 EP 都 支持 ASPM L1， 那 必须 把 EP 的 L1 打 开 。 

L0s 的 流程 比较 简单 : 

进入 : 

:SSD 可 以 直接 在 Tx lane 上 启动 进入 L0s; 

-如 果 SSD 的 Tx 的 L0s 被 关闭 ，Rx 还 是 接受 来 自 RC 的 L0s 请 求 。 
退出 : 

双方 都 可 以 启动 退出 流程 ; 


.发 送 FTS (Fast Training Sequence) ， 然 后 发 送 一 个 SKP， 对 方 借 


此 恢复 bit 和 symbol lock。 


进入 L1 的 流程 相对 复杂 一 点 ， 如 表 8-5 所 示 。 


表 8-5 PCIe ASPM L1 进 入 流程 


RC 


确认 发 送 的 最 后 一 个 TLP 已 经 收 到 对 方 的 ACK (确保 
Replay Buffer 是 空 的 ) 


持续 发 送 PM Active State RequestL1 给 RC， 直 到 
RC 回复 PM Request ACK 

收 到 PM Active State Request L1 

停止 接收 后 续 的 TLP 

确认 发 送 的 最 后 一 个 TLP 已 经 收 到 对 方 的 ACK 
(确保 Replay Buffer 是 空 的) 

确认 FC Credit 足够 (可 以 满足 一 个 最 长 的 传输 ) 

持续 发 送 PM Request ACK， 直 到 EP 发 送 
Electrical Idle 


收 到 PM. Request ACK, Disable TLP/DLLP 包 的 传输 — 


11 发 送 Electrical Idle, HEA L1 — 


12 Em] 收 到 Electrical Idle, Disable TLP/DLLP 包 的 传输 


退出 : 

双方 都 可 以 启动 退出 流程 ; 

:不 是 发 送 FTS， 而 是 重新 进行 Link Training; 

.唤醒 发 起 方 ， 发 送 TS1， 走 LTSSM 的 恢复 步骤 重新 建立 连接 。 
最 后 说 一 下 链 路 控制 寄存 器 的 bit7，Extended Sync ° 


Link Control Register ( fffgdz dil ay 4f 65 ) 
15 121110987654321 0 


Extended 


Sync 


Kja-12 ” 链 路 控制 寄存 器 定义 


Extended Sync 是 一 个 神奇 的 bit， 置 上 以 后 从 L0s 和 L1 退 出 时 ， 设 备 
会 发 超 多 的 FTS 和 TS1， 最 终 让 双方 “握手 ”成功 ( 见 图 8-13) ° 


Scion 4. 2 4. 5) and when 
Section 4.2.6.4.1). This mode provides extemal devices (e g., 
logic analyzers) monitoring the Link time to achieve bit and 
Symbol lock before the Link enters the LO state and resumes 
communication. 


For multi-Function devices if any Function has this bit Set, then 
the component must transmit the additional Ordered Sets when 
exiting LOs. 


Default value for this bit is Ob. 


[8-13 Extended Sync 定义 


这 个 模式 是 当 链 路 中 有 额外 设备 (例如 PCIe 分 析 仪 ， 时， 为 保证 
能 够 正常 达到 bit 和 symbol lock 用 的 。 


但 是 过 到 ASPM L1 回 不 来 或 者 开机 找 不 到 PCIe 设 备 的 情况 ， 也 可 
以 通过 设置 这 个 bit 收 集 更 多 的 参考 数据 。 


8.5 PCIe 其 他 省 电 模 式 


PCIe 链 路 L2 状 态 下 ， 所 有 的 时 钟 和 电源 全 部 关闭 ， 能 够 保证 最 大 
的 省 电 效 末 ， 但 同时 ，L2 的 退出 时 间 相 应 也 增加 了 很 多 ， 达 到 了 肋 秘 
级 别 。 这 样 的 时 间 在 很 多 应 用 场景 下 是 无 法 接受 的 。 


要 比 L1 更 省 电 ， 比 L2 时 间 更 短 ，PCI-SIG 顺 理 成 章 地 和 弄 出 了 两 个 新 
的 ASPM Sub 状 态 : L1.1 和 L1.2。 想 要 使 用 L1.1 和 L1.2，RC 和 EP 都 必须 
支持 并 打开 这 个 功能 ， 同 时 还 必须 支持 CLKREQ# 信 号 。 


在 L1.1 和 L1.2 模 式 下 ，PCIe 设 备 内 部 的 PLL 处 于 关闭 状态 ， 参 考 时 
钟 也 不 保留 ， 发 送 和 接收 模块 同样 关闭 ， 不 需要 像 L1 状 态 下 那样 去 侦 
测 Electrical Idle ° 


L1.1 和 L1.2 的 区 别 在 于 ，L1.1 状 态 下 Common Mode Voltage 仍 然 打 
开 ， 而 L1.2 下 会 将 之 关闭 。 因 为 Common Mode Voltage 恢 复 需 要 时 间 ， 
L1.2 的 退出 时 间 相 对 比 L1.1 长 一 些 。 


从 表 8-6 中 可 以 看 到 L1、L1.1、L1.2 功 耗 和 时 延 对 比 。 


表 8-6 L1、L1.1、L1.2 功 耗 和 时 延 对 比 


源 状 态 状态 ( 开 / 关 ) 目标 
链 路 状态 |PHY/PIPE | PLL 接收 端 / 发 送 端 | Common Mode Keepers | 1 条 Lane WFE | 退出 时 间 
3 4:88 Ja uas 20's of mW 5 hs (retrain) 
L1 Pl : / Z3 [FR : 
10's of mW 20 us(PLL Off) 


fERILI.LL1.2/8. TEE SE FLAIR T fs FUERO, THEE PET 
延 的 增加 完全 在 可 接受 的 范围 内 。 


8.6 NVMe 动 态 电源 管理 


PMC (MicroSemi) 管 自己 的 PCIe SSD 主 控 叫 Flashtec NVMe 控 制 
器 ， 一 共有 4 款 : PM8602NVMe1016、PM8604NVMe1032、 
PM8607NVMe2016 和 PM8609NVMe2032。 其 实 主 要 是 有 两 款 ，10xx 和 
20xx， 分 别 支 持 16 和 和 32 通道。 


m isl ， 有 这 人 么 一 段 话 介绍 电源 管理 优化 的 ， 如 图 8-14 
ZN œ 


Microsemrs NVMe31U3Z nas been opüumized ror power savings using a combination or arcnhitectural and semiconductor design 


techniques. Emphasis has been given not only to absolute power consumption, but also to advanced power management features, 
including, automatic idling of processor cores and autonomous po C bilities. The NVMe1032 allows the platform to 
provide power and performan jectives through the allowing 


firmware to effectively manage 


图 8-14 ”Microsemi 官 网 电源 管理 优化 介绍 截图 
里 面 提 到 一 个 术语 ， 叫 作 Enterprise NVM Express dynamic power 
management interface » (EM. ^ z/j ^ BEH ^ BeL1, EA mu 
大 上 。 
第 一 个 问题 ， 什 么 是 Enterprise NVMe? 


Bing 了 半天 搜 不 到 。 问 了 一 圈 周 围 的 高 人 ， 也 都 说 没 听 过 ， 基 本 
确认 加 上 Enterprise 这 个 前 级 是 为 了 提升 档次 。 


第 二 个 问题 ，NVMe 电 源 管 理 都 包括 什么 ? 
然后 ， 查 到 图 8-15 所 示 的 这 个 路 线 图 。 


ower and performance 


NVMe 1.0 — Mar-2011 


* Queuing Interface 
* Command Set 


* Scatter Gather Lists 


NVMe 1.1 — Oct-2012 


NVMe 1.2 — Q4 2014 


* Host Memory Buffer 

* Replay Protected Memory 

* Active/ldle Power and RTD3 
* Temperature Thresholds 

* Namespace Management 

* Enhanced Status Reporting 

* Pass through support 

* Controller Memory Buffer 

* Firmware Update w/ no Reset 


. End-to-End Protection 
* Security 
* PRP's 


2011 


2012 2013 


图 8-15_NVMe 路 线 图 


路 线 图 中 电源 管理 相关 的 内 容 包括 : 


-Autonomous Power Transition; 


:Active/Idle Power; 


:'RID3 ° 


第 三 个 疑问 ，Dynamic Interface 是 什么 ? 


2014 


2015 


power management mechanis 
performed by a controller. 


翻 NVMe 协 议 手 册 (NVMe 1.2a) , 


Power Management 


看 图 8- ler UR EN 4j, PMC 
说 的 动态 接口 应 该 就 是 对 应 NVMe 电源 管理 Or 


The power management capability allows the host to manage NVM subsystem power statically or 
dynamically. Static power management consists of the host determining the maximum power that may be 
llocated to an NVM subsystem and setting the NVM Express power state to one that consumes this 


a 
amount of power or less. 7 and consists of the host. 
This 


o complement and not replace autonomous power management 


[8-16 NVMe 1.2a Section 8.4 


NVMe 协 议 里 给 出 了 动态 电源 管理 的 框图 ( 见 


图 8-17) 。 


功 耗 目标 
Power Stste 


性 能 目标 


图 8-17”NVMe 动 态 电源 管理 逻辑 图 


功 耗 目 标 和 性 能 目标 作为 系统 应 用 层面 的 输入 ， 发 送 给 主机 端的 
NVMe 驱 动 。 


NVMe Power State: NVMe 规 定 (Identify Controller Data 
Structure) 最 多 支持 32 个 Power State Descriptor. (电源 状态 描述 符 ) 
如 表 8-7 所 示 。 其 中 Power State Descriptor 0 (0 号 电源 状态 描述 符 ) 是 必 
MLHY, 其 他 都 是 可 选 。 当 然 ， 如 有 果 只 文 持 一 个 ， 也 别 用 什么 动态 
管理 了 。 


表 8-7”NVMe 电 源 状 态 描述 符 


电源 状态 描述 符 


2111: 20800 uf y 电源 状态 描述 符 1 
u[ y 


| HE | 
z o i 
3039:3008 | T OSE 电源 状态 描述 符 30 
3071:3040 电源 状态 描述 符 31 
一 个 Power State Descriptor 的 具体 数据 结构 为 32Byte， 定 义 了 该 电 
源 状 态 下 的 各 种 属性 ， 具 体 各 位 定义 如 下 : 


255: 184: 保留 ; 


先 
先 


.183: 182: Active Power Scale， 工 作 模 式 功 耗 粒 度 ; 
.181: 179: 保留 ; 


:178: 176: Active Power Workload， 用 于 计算 工作 模式 功 耗 的 工 
f E fü ER; 


:175: 160: Active Power， 工 作 模 式 平 均 功 耗 ， 这 个 值 乘 以 工作 模 
式 功 耗 粒 度 ， 就 是 工作 情况 下 的 实际 功 耗 值 ; 


:159: 


:151: 


:149: 


:143: 


功 耗 粒度 ， 
:127: 


:124: 


132: 


150: 


144: 


128: 


保留 

Idle Power Scale， 空 闪 模 式 功 耗 粒度 ; 

保留 

Idle Power， 择 亲 模 式 平 均 功 耗 ， 这 个 值 乘 以 空 采 模式 


距 古 空 内 情况 下 的 实际 功 耗 值 ; 


125: 


120: 


TRES 
Relative Write Latency， 写 延迟 ， 值 越 小 代表 延迟 越 低 


A 个 值 的 分 级 级 数 必须 小 于 主 控 支 持 的 电源 状态 数 量 ， 主 控 不 能 一 
只 支持 5 个 电源 状态 一 边 又 支持 10 种 写 入 延迟 ) ; 


:119: 117: 保留 


:116: 112: Relative Write Throughput， 写 入 吞吐 量 ， 值 越 小 代表 
吞吐 量 越 高 (这 


E) ， 


文 个 值 的 分 级 级 数 同样 必须 小 于 主 控 文 持 的 电源 状态 数 


411: 109: 保留 


:108: 104: Relative Read Latency， 读 延迟 ， 值 越 小 代表 延迟 越 


低 ; 


403: 101: 保留 


100: 96: Relative Read Throughput， 读 取 和 吞吐 量 ， 值 越 小 代表 吞 


吐 量 越 高 ; 


'95: 


'53: 


"31: 


25: 


64: Exit Latency， 退 出 该 电源 状态 的 时 间 ( 微 秒 级 ) ; 
32: Entry Latency， 进 入 该 电源 状态 的 时 间 〈 微 秒 级 ) ; 
26: 保留 


Non-Operational State， 为 “0” 代 表 在 这 个 电源 状态 主 控 可 以 处 
理 IO， 为 “1” 代 表 在 这 个 电源 状态 主 控 不 能 处 理 IO; 


24: Max Power Scale, EX ÍfAS&UREBIS :; 
23: 16: QA; 


15: 00: MaximumPower， 最 大 负载 功 耗 ， 这 个 值 乘 以 最 大 负载 
功 耗 粒度 ， 就 是 最 大 负载 情况 下 的 实际 功 耗 值 。 


主机 和 主 控 之 间 ， 吏 通过 对 这 些 值 的 修改 ， 实 现 如 图 8-18 所 示 的 沟 


通 


功 耗 目标 


性 能 目标 
图 8-18 ”主机 和 控制 右 之 间 交 流 电 源 状 态 和 性 能 信息 


同时 主机 通过 Entry Latency 和 Exit Latency 两 个 值 ， 做 出 决策 是 否 进 
入 ， 何 时 进入 某 个 电源 状态 。 


第 四 个 问题 ， 主 机 的 具体 操作 都 有 哪些? 


1) 主机 给 主 控 发 个 Identify Controller 命 令 ， 主 控 会 回复 一 个 4K 的 
数据 包 。 


2) 主机 解析 子 市 263 获 知 主 控 文 持 的 电源 状态 的 数量 。 
人 


例如 主 探 可 以 文 持 四 种 电源 状态 : 
0 


:PS1: OLTP 模 式 ， 大 量 随 机 小 IO (要 求 低 延迟 ) ; 


PS2: 视频 模式 ， 大 小 连续 大 IO 〈 要 求 高 吞吐 量 ) ; 

PS3: 绿色 模式 ， 低 能 

NVMe 协 议 里 也 给 出 了 不 同 电源 状态 的 示例 ， 如 表 8-8 所 示 。 
表 8-8 不 同 电源 状态 对 比 


4) 主机 根据 正在 运行 的 应 用 (例如 Ep 和 BRZ ` AERE 
服务 和 股票 交易 服务 等 ) 选择 主 控 合适 的 电源 状态 ， 具 体 实 E 
Set Feature (Feature ID 0x02) ， 在 DW 11 的 Bit 04: 00， 如 表 8-9 和 


表 8-10 所 示 。 
表 8-9 Set Feature 命 令 中 功 耗 管理 定义 


功能 ID 功能 ID 描述 
00h ii JE B] (i 
Olh 仲裁 命令 5 错误 恢复 
02h Fa i 名 ry TES 
03h LBA 范围 类 型 
表 8-10” 功 耗 管理 命令 DWORD11 定 义 
位 描述 
31:08 保留 
07:05 负载 类 型 : 指明 使 用 工作 负载 的 类 型 ， 用 于 优化 性 能 
04:00 电源 状态 : 指明 设备 接 下 来 准备 转 入 的 电源 状态 


5) 同 理 ， 主 机 也 可 以 通过 Get Feature 命 令 来 获知 当前 主 控 所 处 的 
电源 状态 ， 如 图 8-19 所 示 。 


电源 状态 0 


23] 50ms 


电源 状态 
电源 状态 ”可 操作 最 大 功 耗 ”进入 延迟 ”退出 延迟 


[oo | 


电源 状态 1 


= 
| 


空闲 > 500 ms 


K8-19  ZUREXA SIE IS A] 


设 几 个 状态 跳 来 跳 去 容易 ， 而 具体 的 跳 转 策略 要 结合 当前 IO 模 
式 、 功 耗 要 求 和 EntervExit 延 迟 来 决定 跳 不 跳 ， 何 时 跳 ， 中 哪里， 这 才 
是 核心 价值 。 这 块 没 法 继续 看 手册 找 答案 了 ， 如 果 有 条 件 ， 抓 几 个 典 
型 应 用 场景 切换 时 的 PCIe trace， 那 应 该 可 以 发 现 部 分 策略 ， 另 外 可 以 
ESI 支持 的 Power State Descriptor， 可 能 也 能 反 推 出 一 些 蛇 略 的 考虑 


8.7 Power Domain 


对 于 一 块 SSD， 尤 其 是 用 于 消费 级 的 SSD， 为 什么 功 耗 这 么 重要 ? 
因为 对 于 消费 级 来 说 最 大 的 市 场 是 OEM， 而 OEM 市 场 里 笔记 本 市 场 搭 
载 已 经 是 大 势 所 趋 ! 

笔记 本 与 台式 机 相 比 的 两 大 特点 : 

:用 电池 。 

TARDUS] RR. o 


SXOoKFHgüAPa E: KSSR, ARR; 要 求 SSD 体 积 小 ， 
发 热 少 。 这 都 意味 着 SSD 必 须 控 制 功 耗 。 


我 们 以 SMI 的 某 舱 主 控 为 例 ， 看 看 它 是 如 何 进行 功 耗 控制 的 ， 如 表 
8-11 所 示 。 


表 8-11 某 SMI 主 控 功 耗 控 制 


TT TER 


又 看 到 了 NVMe Power State 这 个 熟悉 的 配方 ， 没 错 
做 法 差不多 : 


提前 在 固件 中 定义 好 一 系列 不 同 的 电源 状态 ， 不同 的 电源 状态 配 
置 PCIe 链 路 状态 、SSD Active/Idle、 功 耗 比 、 退 出 时 延 等 ; 


通过 NVMe 下 发 切换 电源 状态 的 指令 。 


从 功 耗 这 列 可 以 看 到 ， 功 耗 可 以 降低 到 正常 工作 状态 下 的 40%， 其 
至 更 低 ， 仅 靠 调 整 PCIe Link State 是 没 办 法 省 这 么 多 电 的 。 


XIF] A f Power Domain 的 概念 ， 如 图 8-20 所 示 。 
从 图 8-20 中 可 以 看 到 ， 主 控 把 芯片 内 部 的 模块 划分 成 了 几 个 部 分 ， 


学 名 叫 Power Domain， 人 简称 PD ° 


Analog IP 


PD #0 PD #1 
( Always-on/PCle PHY ) ll( Sys Bus,Buffer,NVMe DMA, 


LDPC/RAID,NAND CTRL ) 
PD #2 


(CPU/DRAM ) 
图 8-20 ”SMI 主 控 芯 片 模块 划分 


:PD#0: Always-on/PCle PHY; 


:PD#1: 最 大 的 一 部 分 ， 包 括 Sys Bus ` Buffer» NVMe DMA ` 
LDPC/RAID ` NAND CTRL; 


-PD#2: CPU/DRAM ° 
SET BOXE TRERACBIGRIEE I T: 


1) 主机 一 段 时 间 没 有 读 写 ， 触 发 SSD 的 PCIe 链 路 进入 ASPM， 退 
出 延迟 非常 短 ; 


2) 主机 继续 Idle，PCIe 链 路 进入 ASPM Substate，SSD 仍 处 于 工作 
模式 ， 退 出 延迟 也 很 短 ; 


3) 主机 继续 Idle， 主 控 操 作 PD#1 (关闭 NVMe 模 块 、 各 级 FIFO、 
ECC 模 块 、 闪 存 控制 器 等 ) ，SSD 进 入 Idle Mode， 退 出 延迟 明显 延 
长 ; 


4) 主机 继续 Idle， 主 控 操作 PD#2， 将 CPU 进 入 睡眠 模式 , DRAM 
进入 Self Refresh 模 式 ， 进 入 最 高 节能 模式 ， 退 出 延迟 最 长 ; 


最 后 ， 为 了 更 好 地 控制 发 热 ， 主 控 会 设置 一 个 温度 国 值 ， 当 必 
温度 接近 阔 值 时 ， 主 动 降低 时 钟 频率 ， 使 温度 降低 。 等 温度 回 到 指定 
范围 ， 再 把 时 钟 调 回 正常 工作 频率 ， 如 图 8-21 所 示 。 


NV ir 
V Eg im E 


与 人 速度 


和 散热 情况 


图 8-21 SSD 主 挖 温度 调节 波形 图 


第 9 章 ”ECC 原理 


我 们 知道 ， 所 有 型 号 的 内 存 都 无 法 保证 存储 的 数据 会 永久 稳定 ， 
这 时 候 就 需要 ECC ( 纠 错 码 ) 去 给 内存 纠 错 。ECC 能 力 的 强 弱 直接 影 
啊 到 SSD 的 使 用 寿命 和 可 靠 性 。 本 章 将 简单 介绍 ECC 的 基本 原理 和 目 
前 最 主流 的 ECC 算 法 LDPC 。 


9.1. fH ARP 


WS SITES TIE. BRETT RB 7 E i vi UR 
声 ， 也 包括 还 钱 时 手 拌 多 按 的 一 个 0， 甚 至 在 生物 学 领域 ， 基 因 对 的 复 
制 侦 兰 、 交 细胞 的 产生 、 意 外 突破 橡胶 屏障 的 新 生命 都 可 以 划 入 吗 声 
信号 的 范畴 。 凡 是 有 信息 传递 的 地 方 就 有 噪声 。 我 们 唯一 能 做 的 是 ， 
把 噪声 限制 在 一 定 大 小 的 笼子 里 。 


如 何 建造 这 样 一 个 党 子 ?” 我 们 看 一 下 历史 的 经 验 。 


场景 是 ， 蛋 蛋 每 天 坐 地 铁 都 会 邂逅 一 个 美丽 的 女孩 。 两 人 日 久 相 
识 ， 经 第 相 视 一 突 ， 却 默然 无 语 。 转 腿 间 ， 蛋 和 蛋 束 要 离开 这 个 城市 ， 
他 决定 勇敢 地 表 日 。 


表 日 的 地 点 还 古 那 一 班 地 铁 。 唯 一 的 困难 是 地 铁 太 吵 了 ， 女 神 能 
A a a 0 
Hl o 


1) 扩 首 器 一 个 。 
) 每 个 字 清 晰 地 说 三 遍 。 
结尾 用 手 比 画 一 个 爱心 出 来 。 

利用 扩 音 器 可 以 改善 有 效 信号 和 噪声 的 强度 比 ， 为 女神 准确 地 接 
收 做 了 基础 建设 。 每 个 字 说 三 届 ， 增 加 了 信息 的 见 余 ， 即 使 有 少量 字 
没有 听 清 ， 也 不 影响 表达 的 内 容 。 结 尾 一 个 爱心 的 手势 ， 增 加 对 关键 
信息 的 保护 ， 借 助 大 家 都 慌 的 意象 ， 六 上 爱 的 印章 。 

聪明 的 蛋 蛋 揭示 了 长 久 以 来 我 们 传播 信息 的 诀 穷 。 增 强 信号 和 噪 
声 的 强度 比 ， 增 加 信号 见 余 。 前 者 不 在 此 讨论 ， 我 们 只 考虑 在 不 用 扬 
声 絮 的 情况 下 ， 如 何 尽量 准确 地 传递 信息 。 


实际 通信 中 ， 我 们 用 information bits 表 示 有 效 信息 长 度 ，channel 
use 表 示 实 际 通信 中 传输 的 信息 长 度 。 定 义 : 


N 
d 


UJ 
cd 


Code rate = (information bits) / (channel use) 


举 个 例 于 ， 因 为 每 个 字 说 三 届 ， 所 以 蛋 蛋 采用 的 Code rate 为 1/3。 
CRRA, ZIL 


Code raten] e 程度 。 o Code rate 越 高 ， 
余 越 大 。Shannon 揭 示 了 ， 每 一 种 实际 的 信息 传输 通道 都 有 一 个 参数 
e B 传递 的 错误 率 可 以 在 理论 上 趋 近 于 


C， 如 果 Code rate <C, 
0。 但 是 如 何 趋 近 于 0， 就 是 纠 错 编码 (Error correction code) 要 做 的 


事情 了 。 
我 们 后 续 的 讨论 只 限制 在 二 进 制 的 世界 ， 即 所 有 的 信 , 
进 制 表示 。 


电 都 是 用 二 


9.2 通信 系统 模型 


所 有 的 信息 传播 都 少不了 通信 系统 ， 一 个 完整 的 通信 系统 模型 ， 
信息 由 信息 源 产 生 ， 由 发 送 名 发 送出 信和 号， 通过 包含 噪声 的 信号 传输 
e i. Pest 信道 ) ^ SABE. H RARER h A A A 1] 


整个 框图 如 图 9-1 所 示 。 


信息 源 AL d EE 目的 地 
— AA rx EA 
Fi ASA LAS 


图 9-1 通信 系统 框图 


回 到 和 蛤 香 跟 文 神 才 日 的 例子 ;和 蛋 蛋 心中 所 想 束 是 信息 源 ; ALIAE 
征 神 经 和 肌肉 控制 的 嗓子 ; PiTiNUeiH 3: "BIRBUZEUHSU Channel; 
女神 的 耳 东 就 是 接收 器 ， 最 终 信 息 反 映 到 女神 大 脑 中 。 


SSD 存 入 和 读 出 信息 也 是 一 个 通信 和 系统。 信息 十 用 户 写 入 的 原始 数 
据 ， 经 过 SSD 后 并 的 发 送 占 处 理 后 转化 为 内 存 的 program， 信 号 束 古 内 
存 上 存储 的 电 合 ， 电 三 存储 时 会 有 日 身 泄露 并 在 读 的 过 程 中 受到 周 
电 厨 的 影响， 这 是 内 存 的 信道 特性 ， 最 后 数据 通过 SSD 后 站 的 读 取 接收 
如 完成 恋 取 过 程 。 


在 二 进 制 编码 的 系统 中 ， 有 两 种 常见 的 Channel 模 型 一 一 BSC 
(Binary Symmetric Channel， 二 进 制 对 称 信道 ) 和 BEC (Binary 
Erasure Channel， 二 进 制 擦 除 信道 )。 一 句 话 区 分 BSC 和 BEC: BSCH 
错 (接收 者 收 到 的 0 不 一 定 是 0， 可 能 发 送 者 发 送 的 是 1;， 同样 ， 收 到 的 
1 不 一 定 是 1， 可 能 发 送 者 发 送 的 是 0) ; BEC 丢 bit (接收 者 如 果 收 到 0 
(1) ， 那 么 发 送 者 发 送 的 肯定 是 0 (0) ; 如 果 传 输 发 生 错 误 ， 接 收 者 
则 接收 不 到 信息 ) e 


BSC 模 型 如 图 9-2 所 示 。 


二 进 制 信 号 由 0、1 组 成 ， 由 于 Channel 噪 声 的 影响 ，0、1 各 有 相同 
的 概率 p 翻 转 ， 即 0 变 1，1 变 0。 信 和 号 仍然 保持 不 变 的 概率 为 1-p。 


例如 一 串 二 进 制 信号 ， 在 经 过 BSC 模 型 后 ， 原 始 信 
号 “101001101010” 变 为 “111001111000”。 


BEC 模 型 如 图 9-3 所 示 。 


lp 


l-p 
图 9-2 ”BSC 模型 


l-e 
图 9-3 BEC 模型 


BEC 模 型 认为 在 信号 传输 中 ， 无 论 是 0 还 是 1 都 有 一 定 概率 变 为 一 
个 无 法 识别 的 状态 。 


fnm — 8 — t gli , 在 经 过 BEC 模 型 后 ， 原 始 信 
5:*101001101010"2573*1x10011x10x0" (xx 表示 未 知 状态 ) 


对 于 SSD 里 的 Channel 模 型 一 般 采 用 BSC， 即 认为 内 存 信 号 发 生 了 
一 定 概率 的 位 翻转 (bit-flip) 


为 了 使 得 信息 从 源头 (source) 在 经 过 品 声 的 信道 后 能 够 准确 到 达 
目的 地 ， 我 们 要 对 信息 进行 编码 ， 通 过 增加 元 余 的 方式 保护 信息 。 


基本 流程 如 图 9-4 所 示 ， 有 具体 说 明 如 下 。 

Source 发 出 的 信息 可 用 k bit 的 信息 x 表 示 ， 经 过 编码 器 (Encoder) 
转化 为 n bit 信 号 c。 这 个 从 k bit 到 n bit 的 过 程 叫 编码 过 程 ， 也 是 添加 宛 余 
的 过 程 。 信 和 号 c 的 所 有 集合 叫 编码 集合 。 

发 送 器 把 信号 发 送出 去 ， 经 过 Channel 后 ， 接 收回 收 到 信和 号 n bit 信 


号 y， 经 过 解码 器 (Decoder) 转 成 k bit 信 息 兴 ， 这 个 过 程 是 解码 过 
程 ; 如 图 9-4 所 示 。 


信息 源 


信息 目的 地 


图 9-4 信息 编码 解码 过 程 


9.3 纠 错 编码 的 基本 思想 
言 息 ， 使 得 原始 信息 的 


编码 之 间 有 足够 大 的 区 别 。 


9.3.1 ”编码 距离 


蛋 蛋 表白 时 的 信息 为 “我 喜欢 你 ”四 个 字 ， 为 了 防止 女神 听 不 到 ， 
他 添加 了 宛 余 信息 。 经 过 和 蛋 蛋 添加 见 余 后 变 为 了 “我 我 我 喜 喜 喜欢 欢 欢 
你 你 你 ”， 其 实 女神 收 到 的 信号 为 (我 我 饿 Txx 欢 花 欢 xx 里 ) ， 其 中 x 
表示 为 邻 座 大 妈 的 霸气 笑 声 ， 女 神 是 如 何 正 确 地 捕捉 到 蛋 蛋 意图 的 
Ug? 显然 女神 在 这 方面 很 有 经 验 ， 识 破 了 蛋 蛋 重复 三 遍 的 伎俩 ， 电 光 
火石 间 ， 在 她 脑海 里 飞速 搜索 比 对 推理 ， 得 出 一 个 通顺 而 有 意义 的 结 
论 。 换 名 话说， 在 女神 的 词典 中 ， 有 意义 的 语句 全 都 列 出 来 ， 发 现 跟 
蛋 蛋 发 出 声音 最 相似 的 就 是 : “我 我 我 喜 喜 喜欢 欢 欢 你 你 你 ”。 

女神 的 词典 可 以 看 成 所 有 可 能 编码 的 集合 ， 如 何 衡量 这 个 编码 集 
合 中 容易 混 请 的 程度 呢 ? 这 个 参数 就 是 编码 距离 。 什 么 是 距离 呢 ? 这 
里 的 距离 指 的 是 汉 明 距离 ， 即 两 个 信号 之 间 有 多 少 bit 不 同 。 比 如 信和 号 

(0, 1, 1) 与 (0, 0, 0 的 距离 为 2， (1,1, D 5 (0, 0, 0) 的 

距离 为 3。 

蛋 蛋 有 4 个 信息 ， 为 00，01，10，11。 现 在 如 何 插入 宛 余 呢 ? 

首先 想到 的 是 重复 法 : 


:00 变 为 00000000，; 


.01 变 为 01010101; 
.10 变 为 10101010; 
.11 变 为 11111111。 


现在 接收 的 到 信号 为 00010000， 我 们 发 现 跟 这 个 信号 最 相似 的 是 
00000000， 距 离 为 1。 


一 个 编码 集合 里 ， 大 家 不 一 定 是 均匀 分 布 的 ， 有 些 编码 之 间距 离 
比较 近 ， 有 些 比 较 远 ， 编 码 距 离 指 的 是 最 近 的 两 个 编码 之 间 的 距离 。 


EIR, -RRIA TIS Lo — — EGRE B fe 0 AUR 
有 有 效 编码 之 间 的 编码 距离 ， 选 择 编码 距离 最 小 的 。 所 以 编码 距离 的 
重要 作用 是 可 以 指示 编码 纠 错 的 bit 个 数 。 和 有 蛋 蛋 和 阿 采 住 在 不 同 的 地 
F, ENd ° EEJ I IFF, MAREI T F o EARLE, TA 
RREFERA T d/2, W NANE ES T S8 ERO e DR] o Pr DOSES 
HONRA, RJEBESZJd, HXÉbit Te T XUI T /2, Ki n] DURS 
离 谁 近 就 归 谁 的 原则 去 纠 错 〈 赶 羊 回 家 ) 。 


9.32 REZENE 
Check) 


TIRS (Parity- 


收 钱 的 阿姨 狐疑 地 拿 起 蛋 蛋 递 过 来 的 100 块 钱 ， 迎 看 灯光 仔细 打量 
过 后 ， 又 取出 了 紫外 线 灯 从 头 到 尾 照 了 一 下 ， 终 于 把 钱 放 进 钱 盒子 
里 ， 找 了 有 蛋 蛋 99 块 5。 阿 姨 担 心 收 到 假币 ， 她 检查 钞票 可 不 敢 马 席 。 


阿姨 检查 钞票 的 行为 叫 信 号 校 验 ， 信 号 校 验 的 基本 模型 是 ， 对 信 
Fi MEE FREWER ENR, BEA 
J o 


这 里 信号 用 y 表 示 ， 特 定 的 处 理 用 H 表 示 。H 表 示 对 信和 号 进行 了 处 
理 。 处 理 结 采 用 CR 表示 。 


Jo ” 校 验 通过 
CR-H( 
dL nn 


在 二 进 制 的 世界 里 ， 最 基础 的 校 难 方法 是 奇偶 校 验 ， 即 Parity- 
Check ? 


对 于 n bit 二 进 制 信号 


CR —H (y) b ] 的 个 数 为 偶数 
y — e id 

1, 1 的 个 数 为 奇数 

例如 长 度 为 16 的 二 进 制 数据 : 1000100111011011， 其 中 1 的 个 数 为 
9， 故 CR=1 ° 

判断 信号 里 的 1 的 个 数 为 奇 还 是 偶 ， 有 非常 简单 的 方法 。 在 二 进 制 
里 ， 有 一 种 异 或 ( 即 xor) 运算 ， 符 号 为 @， 运 算 方 式 是 先进 行 加 法 运 
算 ， 然 后 用 运算 结果 对 2 取 余 数 (mod (2) ) ， 或 者 更 简单 地 记 为 “ 相 
加 不 进位 ”( 见 图 9-5) e 


表达 式 


图 9-5 ”有 异 或 运算 表达 式 


可 以 验证 只 要 把 二 进 制 的 每 一 个 bit 依 次 进行 xor 运 算 ， 奇 数 个 bit 1 
的 结果 为 1， 偶 数 个 bit 1 的 结果 为 0， 与 bit 0 的 个 数 无 关 。 


所 以 ， 用 y 表示 第 ibit 的 值 (0 或 1) ， 有 
CR-H (y) zy, 6y, 6y, ... ƏY, 


利用 奇偶 校 验 可 以 构造 最 简单 的 校 答 码 一 一 单 bit 校 验 码 SPC (Bl) 
single bit parity check code) ° 


把 长 度 为 n 的 二 进 制 信息 增加 1bit yn+1 变 成 y'"， 使 得 : 
CR-H (y) =y] 6y, ®y3...@y, Byn =0 (a) 
现在 y' 构 成 了 y 的 单 bit 校 验 码 。 (a) 又 叫 作 奇 偶 校 验方 程 。 


显然 ，y 中 任意 一 个 bit 如 果 发 生 bit 反 转 ， 无 论 从 0 到 1， 还 是 1 到 
0， 校 验方 程 CR=1 。 


SPC 可 以 探知 任意 单 bit 的 反 转 。 对 于 偶数 个 bit 反 转 SPC 无 法 探 
知 。 而 且 校 验方 程 无 法 知道 bit 反 转 的 位 置 ， 所 以 无 法 纠 错 。 


一 个 目 然 的 想法 是 ， 增 加 SPC 的 个 数 ， 增 加 见 余 的 校 验 信息 。 辣 
一 个 bit 被 好 几 个 校 验方 程 保护 ， 当 它 出 现 错 误 时 就 不 会 被 漏 掉 。 


后 面 的 文章 中 ， 用 + 代替 @。 


9.3.3 ”校准 和 矩阵 H 和 生成 矩阵 G 


蛋 蛋 的 丈 母 娟 在 女儿 结婚 前 对 未 来 女 婚 有 一 个 要 求 列表 ， 前 五 条 
©: (DD 要 求 有 博士 学 位 ， 避 脾气 要 好 ，(3) 人 要 长 得 帅 ，(9 会 做 家 务 ，(3) 
WAE 

RE, EELER ERK, A EK T AERE 


所 有 男性 同胞 的 一 个 划分 。 每 一 条 要 求 都 是 一 个 校 验 方程 。 什 么 样 的 
校 验 方程 组 ， 决 定 了 这 个 男性 同胞 群 到 底 由 哪些 人 组 成 。 


We dM 
y JF e 


对 于 所 有 x (X9. X1; X2, X3, X4, X54.) ， 只 要 满足 HxT =0, 
x 就 是 正确 的 码 字 。 如 果 不 满足 ， 则 x 不 属于 正确 的 码 字 ， 认 为 在 传输 
的 过 程 中 x 出 现 了 错误 。 


举例 ， 长 度 为 4 的 信号 ，x (xo。，x, ，x。，xs ) ， 有 两 个 校 验方 
B. 


Xo +X =0 
X, tX, tX4 =0 


BERI CICER e: 


|mrk 
T 0 2 
Hx = 
X E Xa F X3 


n|W, HERE fru] Drs — 1 Beds ^ TEINA EU 
示 信 和 号 中 第 i bit 参 与 校 验方 程 。 


所 有 满足 奇偶 校 验 方程 的 x 组 成 了 一 个 编码 集合 。 一 般 来 说 ， 编 码 
长 度 为 n bit， 有 I 个 线性 独立 的 校 验 方程 ， 则 可 以 提供 k= (nr) 个 有 效 
信息 bit 和 r 个 校 验 bit ° 


对 于 线性 分 组 编码 而 言 ， 原 始 信号 u 经 过 一 定 的 线性 变换 可 以 生成 
纠 错 码 ce， 完成 见 余 的 添加 。 线 性 变换 可 以 写成 矩阵 的 形式 ， 这 个 矩阵 
就 是 生成 矩阵 G， 表 示 为 c=uG 。 


其 中 ，c 为 n bit 信 号 ，u 为 k bit 信 号 ，G 为 kxn 大 小 的 矩阵 。 由 了 矩阵 
可 以 推导 出 生成 矩阵 G。 


9.4 LDPC 码 原理 简介 


在 纠 错 码 的 江湖 里 ，LDPC 以 其 强大 的 纠 错 能 力 ， 得 到 了 广大 工 
人 是 目前 最 主流 的 纠 错 码 。 本 节 将 带领 大 家 一 瞄 LDPC 的 
XU e 


9.4.1 LDPC 是 什么 


LDPC 全 称 是 Low Density Parity-Check Code， 即 低 密 度 奇偶 校 验 


码 。LDPC 的 特征 是 低 密度 ， 


fii ° 
比如 : 
L 4d 
0 0 
0 0 
H- 0 0 
] 0 
0 1 
0 0 
0 0 
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C = G G mų G G G 


LDPC 又 分 为 正则 LDPC (regular LDPC) 和 非 正则 LDPC (irregular 


LDPC) 编码 。 


正则 LDPC 保 证 : 校 验 和 矩阵 每 行 有 固定 J 个 1， 每 列 有 固定 K 个 1。 


非 正 则 LDPC 没 有 上 述 限 制 。 
举例 ， 长 度 为 12 的 LDPC 编 码 C， 满 足下 列 校 验方 程 : 


ET) 


C, 6C, 6C, 6C, 


GC OD. (IDE OG 
C, 9C, QC, BC, 
CPC: OC. (OC. 
C, 6C, 6C, 6C, 
GDC HC, 6C, 
C, 6C, 6C, 6C, 
C,9 €, 66, 6C, 
LO. OL, OE 
用 校准 矩阵 表示 为 : 
GC G G G G G G Cy Gi Ga 
0 1 9» 8 lI Ii i pgp 
L uU 0 1 © 0 O D O0 D 
ü 0 :I00n0 0 I 1 1 
|I B P» O0 I1 EL P» D EI P. 
0 1 O O0 O0 O0 1 1L 
0 0 I i b D b» l1 O0 9D 
0 0 1] 1] O 1] O 0 O0 p 
0 8 O9 D I D 13 UU HB ] 
i1 1 9 0 9 0 CLL MB 


—-0 
zd 
-1ü 
x 
=p 
=g 
=O 
zü 


zl 


ie 


o- oj. j oom. c 


C, DC, BC, 6C, -0 
C OC, OC, OC, =0 
CBC, DCDC, -0 
CBC DBC, 66, =0 
GC BC, OC, YC, =0 
C,00,00,06,-0 
CDC, DC, 6C, -0 
C,00,060,00,-0 
C,90, 00,60, -0 


我 们 看 到 朝 和 矩阵 每 行 有 4 个 1， 每 列 有 3 个 1， 所 以 C 为 正则 LDPC ° 


9.4.2 Tanner 


WHEJILDPC, /b^ f Tanner], HABER] U EDUUI AS ZR 73 Tanner ° 
Tanner 图 由 节点 和 连 线 组 成 。 


节点 有 两 种 一 种 叫 b 节 点 (bit node) ， 一 种 叫 c 节 点 (check 
node) 。 


假设 信号 编码 长 度 为 n， 其 中 每 一 个 bit 用 一 个 b 丰 点 表示 “。 校 验方 
程 个 数 为 r， 每 一 个 校 验 方程 用 一 个 cm 点 表示 。 

现在 连 线 ， 如 琳 某 个 b 节 点 bi 参与 了 有 茶 个 cT 氮 g 的 校 验 方程 ， 则 把 
b'Ti jb; 和 cT sic; 连 起 来 2 

注意 b 世 点 用 圆 形 表示 ，cT 点 用 方块 表示 。 每 个 pb 万 点 和 3 个 cT 点 


相连 ， 每 个 cF 点 和 4 个 b 下 点 相连 ， 如 图 9-6 所 示 这 是 一 个 典型 的 正则 
LDPC ° 


m 
K 


É9-6 Tanner] 


Tanner 图 把 编码 和 图 论 神 奇 地 结合 在 了 一 起 。 有 了 Tanner 图 ， 
LDPC 的 解码 方法 就 比较 好 阐 檬 了 。 


95 LDPC 解 码 


LDPC 的 解码 方法 有 硬 判 决 解码 (hard decision decode) 和 软 判决 
解码 (soft decision decode) 两 种 。 


本 市 将 介绍 一 种 经 典 的 硬 判 决算 法 
判决 算法 一 一 和 积 信息 传播 算法 。 


Bit-flipping 算 法 和 一 种 软 


9.5.1 Bit-flipping?£ 77; 


Bit-flipping 算 法 的 核心 思想 是 : 如 采信 号 中 有 一 个 bit 参 与 的 大 量 校 
验方 程 都 校 验 失 败 ， 那 么 这 个 pit 有 错误 的 概率 很 大 。 


好 的 校 验 方程 可 以 达到 上 述 效 果 。 校 验 和 矩阵 的 稀 疏 性 把 信号 的 每 
个 bit 尽 量 随机 地 分 艇 到 多 个 校 验 方程 中 去 。Bit-flipping 算 法 运用 消息 传 
递 方法 ， 通 过 不 断 迭 代 达 到 最 终 的 纠 错 效 果 。 
Bit-flipping 解 码 算 法 如 下 : 


给 定 一 个 n bit 信 号 y (y; yo. Yn) > BAREH o mH HERE 
对 应 的 Tanner 图 。n bit 信 号 对 应 n 个 b 节 点 ，Ir 个 c 节 点 。 


1) 每 个 b 广 点 同 目 己 连接 的 c 太 感 发 送 目 己 是 0 还 是 1° 初始 是 第 i 个 


2) 每 个 c 节 点 收 到 很 多 b 节 点 的 信息 ， 每 个 c 节 点 代表 一 个 校 验方 
程 。 


如 采 方 程 满足 ，cP 点 将 每 个 b 世 点 的 消 轧 原封 不 动 地 发 送 回去 。 
MRAR, cTD 点 将 每 个 b 玉 点 发 来 的 消息 取 反 后 ， 发 送 回 


3) 每 个 b 节 点 跟 好 多 c 节 点 相连 ，b 节 点 收 到 所 有 来 自 c 节 点 的 消息 
后 ， 采 用 投票 法 来 更 新 这 一 轮 输出 的 消息 。 参 加 投票 的 包含 每 个 bit 的 
初始 值 。 投 票 的 原则 有 是 少数 服从 多 数 。 

4) b 玉 点 更 新 好 后 ， 停 止 条 件 : 所 有 的 校 验方 程 满足 或 者 迭代 次 
数 超过 上 限 。 如 有 果 停 止 条 件 不 满足 ， 则 需要 转 到 步骤 1 继续 欠 代 。 

下 面 举 个 例子 


”输入 信号 y=[101011]， 经 过 步 缀 1 后 ， 如 图 9-7 所 示 ， 实 线 篆 尖 表 
示 传 递 的 信息 为 1， 虚 线 箭头 表示 传递 的 信息 为 0。 


图 9-7 步骤 1 


RIR, CH Br T b nA ALBAS. ^ THIACTCAS 7I EH JC D A3 


原封 不 动 返回 消息 ， 不 满足 则 取 反 和 返回， 如 图 9-8 所 示 。 
步骤 3， 投 票 法 表决 并 重新 更 新 pb 世 点 的 值 ， 如 图 9-9 所 示 。 
步骤 4， 重 新 检查 节点 ， 发 现 校 验 方程 满足 ， 结 束 ， 如 图 9-10 所 


Bit-flipping 算 法 有 很 多 细 克 值得 讨论 。 


其 中 一 个 问题 是 ，b 币 点 更 新 时 ， 一 次 更 改 一 个 还 是 一 次 更 改 多 
个 ， 或 者 两 者 结合 。 因 为 校 验 矩阵 的 结构 ， 如 果 同 时 改变 很 多 b 广 点 的 
话 ， 可 能 无 法 收 全 。 这 时 可 以 将 梯度 下 降 法 应 用 到 Bit-flipping 算 法 中 。 
通过 构造 目标 函数 ， 目 标 函 数 包 括 校 验方 程 最 小 误 状 ， 以 及 与 原 信 和 号 
最 大 相似 ， 来 更 新 b 节 点 。 最 终 的 结论 是 ， 每 次 单个 bit 翻 转 的 收敛 性 
好 ， 但 是 比较 慢 ， 如 图 9-11a 所 示 ， 翻 转 多 个 的 话 会 导致 收敛 性 震 沪 ， 
但 是 速度 快 。 一 个 中 间 方 案 是 ， 先进 行 多 个 bit 的 翻转 等 校 验方 程 失 
败 的 个 数 小 到 一 定 程度 后 ， 再 进行 单个 bit 翻 转 。 
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图 9-10 ”步骤 4 


Local maxmum 


a) Single flipping b) Multiple flipping ( fixed ) c) Multiple flipping ( dynamic ) 
Kljo-11 几 种 Bit-flipping 算 法 收敛 示意 图 


9.5. ”和 积 信 息 传 播 算法 


这 一 忆 我 们 来 介绍 和 积 信息 传播 算法 (sum-product message 
passing， 简 称 和 积 算法 ) ， 它 是 在 贝 叶 斯 网 络 、 马 尔 可 夫 随 机 场 等 概 
率 岁 模型 中 用 于 推 邮 的 一 种 信息 传递 算法 。 目 前 广泛 应 用 于 人 工 智能 
和 信息 处 理 领 域 ， 而 它 的 一 个 非常 经 典 的 应 用 就 是 LDPC 人 码 。 


go ES 这 里 假定 读者 的 概率 论 知识 没有 全 部 还 
给 老师 。 


什么 是 条 件 概率 ? 什么 是 联合 概率 ? 什么 是 边缘 概率 ? 
条 件 概率 P (AB) 表示 在 事件 B 的 条 件 下 ， 发 生 事件 A 的 概率 。 


P (BIA) =P (A, B) |P (A) 。 其 中 P (A) ^P (B) 分 别 表示 随 
机 事件 A、B 发 生 的 概率 。 


P (A, B) 表示 事件 A 和 事件 B 共 同 发 生 的 概率 ， 也 叫 联合 概率 。 
而 且 我 还 知道 ， 贝 叶 斯 公式 : P (BJA) =P (AJB) P (B) |P (A) 


边缘 概率 则 是 指 从 多 元 随机 变量 中 的 概率 分 布 得 出 的 只 包含 部 分 
变量 的 概率 分 布 ， 比 如 P (A) 

根据 联合 概率 函数 如 何 计算 其 他 类 型 的 概率 ? 举 个 例子 ， 联 合 概 
率 P (A, B, C, D) =f (A, B, C, D) ， 则 边缘 概率 P(A) 的 概率 
要 把 B，C，D 所 有 取 值 都 遍历 一 遍 。 


P (A) =k }c}pf (A. B, C, D) 


P (A[B-1) -YcXpf (A, B-1, C, D) 
有 时 候 随机 变量 内 部 之 间 有 约束 关系 ， 这 种 情况 下 ， 可 以 化 简 很 
多 运算 。 


什么 是 贝 叶 斯 网 络 (Bayesian networks) ? 贝 叶 斯 网 络 是 一 种 推理 
性 图 模型 。 贝 叶 斯 网 络 可 以 帮助 你 更 好 地 分 析 问 题 。 比 如 如 下 网 络 ， 


WwW、X、y、2Z 分 别 表 示 4 个 随机 事件 ，w 表 示 一 个 人 是 否 吸烟 ，x 表 示 其 
职业 和 煤矿 是 否 相 关 ，y 表 示 其 是 否 串 有 咽炎 ，z 表 示 其 是 否 得 肺 部 肿 
瘤 ， 如 图 9-12 所 示 。 


y Z 
图 9-12 一 个 贝 叶 斯 网 络 例子 

贝 叶 斯 网 络 有 以 下 关系 : 

P (w, x, y, z) =P (w) P (x) P (y|w) P (z|w, x) 


我 们 只 要 知道 了 P (w) P (x) 和 P (yw) ^P (zw, x) , BA 
网 络 模型 就 构建 出 来 了 。P (w) 表示 一 个 人 抽烟 的 概率 ，P (x) 表示 
职业 和 煤矿 相关 的 概率 ， 这 两 个 可 以 用 社会 平均 统计 数据 。P (yw) 
表示 吸烟 与 否 的 条 件 下 得 咽炎 的 概率 。P (ylw=1) 表示 吸烟 者 得 咽炎 
的 概率 。P (y|w-0) 表示 不 是 吸烟 者 得 咽炎 的 概率 。P (zw, x) 表示 
考虑 是 否 吸 烟 和 是 否 在 煤矿 工作 的 情况 下 肺 部 得 肿瘤 的 概率 o 


这 个 网 络 建立 起 来 后 ， 当 w，x，y，z 发 生 任意 一 件 或 者 儿 件 事情 
的 时 候 ， 我 们 可 以 求 其 他 事件 的 后 验 概 率 。 比 如 ， 当 y=1 时 ， 即 得 咽炎 
的 情况 下 ， 我 们 可 以 通过 网 络 算出 P (zly=1) 即 得 咽炎 的 情况 下 得 肺 部 
肿瘤 的 概率 。 当 z=1 时 ， 即 得 肺 部 肿瘤 的 情况 下 ， 我 们 可 以 反 推算 出 P 
(w[z-1) 即 得 肿瘤 的 情况 下 吸烟 的 概率 。 


什么 是 因子 图 ? 因子 图 是 无 向 的 概率 分 布 二 部 图 。 所 请 因子 ， 由 
于 事件 之 间 有 内 在 的 约束 关系 所 表现 出 来 的 一 种 逻辑 形式 ， 比 如 一 种 
联合 概率 可 以 表示 为 : 


P (A, B, C, D, E, F, G) «f (A, B, C, D, E, F, G) sf 
(A, B, C) £j (B, D, E) fa (C, F) f, (C, G) 


在 这 种 情况 下 ， 联 合 概率 可 以 分 成 因子 乘积 的 形式 。 Es E 
约束 方程 。f (Sj) 表示 第 i 个 因子 ， 用 Si 来 表示 其 约束 的 随机 变 
E, 如 S1 ={A，B，C}， 


例如 : P (A) «Fp, c pz r, elf (Si) 
用 因子 图 来 表示 〈 见 图 9-13) : 


图 9-13 一 个 因子 图 的 例子 


i e 为 什么 呢 ? 根据 小 学 
过 的 数学 知识 一 一 乘法 分 配 律 : 


xy, +Xy2 =X (y, +y2 ) 
左 式 用 了 两 次 乘法 ， 一 次 加 法 ; 右 式 用 了 一 次 乘法 ， 一 次 加 法 。 
所 以 : 2i xyi "XY yi 


乘 -加 变换 为 加 - 乘 后 ， 计 算 复 杂 度 降低 。 当 我 们 计算 边缘 概率 或 
者 其 他 形式 的 概率 时 ， 这 个 特性 非常 重要 。 


现在 求 P (A) : 


P(A)« F, IIA (S;) 


ECDEFG' 


= Y, AK(A45.C)f,(8.C.D) A (C.F) f, (C.G) 


= Y AGLEC) f (DE) YA F) Xf. (6.6) 


2 Hi A (4,B,C) ,(B,D,E)m4(C)m, (C) 


B,C,D,E 


E E A (4B, C) f (B.D.E)m. (C) 


B.C.D 


= X fi(4,B,C) > f, (B,D.E)m,(C) 


B.C D.E 


=X fí(A,B,C)m,(B)m,(C) 


B.C 


- f (A) 


其 中 : m (B) -XD, Ef, (B, D, E) , mc, (C) -XFf, (C, 
F) , mc, (C) -EGf, (C, G), 


m, (C) 2mc, (C) mc, (C) 


有 了 上 边 的 公式 ， 最 终 得 到 : P (A) xf (A), f (A) 就 是 上 面 
最 终 计算 出 的 只 跟 A 有 关系 的 函数 。 


故 可 以 设 P (A) =Kf (A) ，K 为 归 一 化 因子 。 结 合 归 一 化 方程 : 


P (A20) +P (A=1) =1 
可 以 求 得 P (A) 。 


上 面 的 推导 过 程 看 上 去 很 复杂 ， 其 实 束 是 乘法 结合 律 的 应 用 而 
已 ， 而 且 可 以 明显 看 到 求 边 绿 概率 的 过 程 葡 是 一 个 乘积 然后 相 加 的 过 
程 ， 所 以 叫 和 积 (sum-product) ° mi E.m, Am, 只 和 自己 的 约束 方程 有 
天 。 在 图 9-14 中 可 以 看 到 ， 这 种 优化 的 算法 看 上 去 像 信 息 在 传播 。 推 而 
广 之 ， 如 果 图 很 复杂 ， 我 们 也 可 以 这 样 计算 。 从 需要 求 的 万 点 A 看 ， 总 
可 以 看 到 因子 图 是 一 标 树 ， 而 A 是 根 和 点 ，A 的 边 绿 分 布 可 以 看 作 消 上 
层 层 传递 的 过 程 。 


图 9-14 my, 和 me 在 图 上 的 表示 
了 解 了 可 能 涉及 的 数学 知识 ， 那 么 和 积 算法 怎么 应 用 呢 ? 
此 处 为 了 讨论 方便 ， 用 X 表 示 真 实 信 息 ， 用 Y 表 示 随 机 观测 信号 ， 


可 以 是 电 庄 值 ， 也 可 能 是 探测 国 值 (因为 软 判 决算 法 可 以 利用 比 硬 判 
决算 法 更 多 的 信道 信息 ， 如 图 9-15 所 示 ) 。 


Yı 


图 9-15 ”两 个 X=1 的 信号 P (X-1|lY-y,) =0.9 (Æ) , P (X=1|Y=y, ) 
-0.6 (Æ) 


我 们 建 一 个 模型 ， 没 错 就 是 Tanner 图 ，Tanner 图 也 是 一 种 因子 图 。 


如 图 9-16 所 示 ， 每 个 涂 色 方块 表示 一 个 c 太 护 ， 代 表 一 个 校 验 方 
程 ， 而 校准 方程 是 一 种 非常 简单 的 约束 方程 。 举 个 例子 : 


AABO- | X 44-B-C-0 
T ^ Uk 其 他 情况 


每 个 圆圈 表示 与 b 节 点 对 应 的 X; ， 而 与 之 前 Tanner 图 不 同 的 是 ， 
个 b 节 点 都 有 唯一 的 观察 约束 节点 (用 空心 框图 表示 ) 与 之 绑 定 。 观 察 
约束 节点 负责 提供 P_(Xi |Y; =y; ) ， 所 以 约束 方程 fY Ou) =P (Xi; |Y; 


=y, ) o 


[9-16 ”Tanner 图 


我 们 的 目的 是 ， 求 得 每 一 个 边缘 概率 P (X,) 。 最 终 的 P (Xi) =K 
f OX) ，K 为 归 一 化 因子 。 如 果 f (Xi =1) <f (Xi =0) ， 我 们 输出 Xi 
为 0， 否 则 输出 1。 


下 面 见 证 奇迹 的 时 刻 到 了 。 
1) 首先 假定 Tanner 图 是 一 棵 树 〈 如 果 不 是 树 ， 后 面 有 讨论 ) 。 


2) 对 于 任意 X; ， 为 了 方便 称 为 A， 我 们 把 它 当 成 根 节点 ， 如 图 9- 
17 所 示 。 


3) 通过 消息 传播 的 方法 ，P (A) 可 用 如 下 方法 求 得 : 


(从 各 个 叶子 节点 往 根 市 点 传播 消息 。 如 图 9-18 所 示 ， 五 个 m 都 是 
从 信道 得 来 。 比 如 myog ,a =f。 (A) =P (AIYA =yA 


消息 传播 到 b 节 点 ( 见 图 9-19 中 的 圆圈 ) 后 ， 由 b 节 点 继续 同根 节 
点 方 同 传播 ， 进 入 下 一 个 约束 方程 的 范围 ， 罕 过 约束 方程 后 ， 原 来 的 
消息 被 汇聚 成 狐 的 消 居 ， 如 果 有 两 个 约束 方程 连 到 同一 个 b 广 点 ， 则 信 
息 相 乘 后 继续 传播 。 图 9-19 是 一 个 局 部 示意 图 。 

可 以 计算 mp =>p Ef (B. D, E mp me 


(3 继续 传播 ， 直 到 所 有 的 消息 最 终 传 到 A ( 见 图 9-20) : 


P (A) =Mfg -a Mf >A 

这 样 就 求 得 了 P(A) ， 同 理 其 他 所 有 的 边缘 分 布 都 可 以 求 出 来 ! 
读者 通过 观察 应 该 发 现 ， 这 个 消息 传播 的 算法 其 实 可 以 并 行 化 ， 只 
稍微 更 改 一 下 算法 即 可 。 

下 面 介 绍 如 何 丛 单 地 实现 并 行 化 。 

为 了 同时 求 出 所 有 边缘 分 布 ， 每 个 B 方 点 对 消息 进行 路 由 。 把 每 个 
约束 方程 的 方 品 当成 根 节 点 对 每 ， 把 不 是 这 个 方 同 传 米 的 所 有 消 居 相 
乘 之 后 送出 去 。 收 到 消 恩 时 如 图 9-21 所 示 。 


X 广 把 发 送 消 恩 ， 如 图 9-22 所 示 。 


图 9-17 一 个 节点 对 应 一 棵 树 


mp meg 


图 9-19 一 个 局 部 示意 图 


图 9-22 义 发 送 给 各 节点 消息 


并 且 满 足 : 
Mx—fi=Mf2—xMf3—xX 
Mx—f2=Mfı—xMf3—x 
Mx—f3=Mfı—xMf2—>X 


同 理 每 个 c 节 点 (约束 方程 来 表示 c 节 点 ) 也 要 针对 不 同 的 可 能 
径 进 行 计算 。 图 9-23 表 示 了 通 往 c 节 点 的 传播 消息 。 


c 世 点 往 各 个 b 节 点 传送 的 消息 为 〈 见 图 9-24) : 
y > F(B,D,E) y, , gg > 
D,E 


m, , »-2/fí (B,D,E) m, ,,m, ,, 


m, , r= S| (B,D,E) m, ,,m; ,, 


图 9-23” 通 辐 { 约 束 方 程 的 各 个 消息 


Mf— E 


图 9-24 cT A E T b RIE RIH A 


最 终 ， 经 过 多 次 迭代 (最 多 为 因子 图 中 最 大 深度 树 的 两 倍 深 
度 ) ， 得 到 所 有 节点 的 边缘 概率 P。 算 法 结束 。 


值得 讨论 的 是 ， 前 边 的 算法 假定 Tanner 图 是 无 环 的 ， 每 一 个 节点 都 
可 以 拉 出 一 棵 树 来 。 在 现实 中 ， 这 个 假定 是 不 成 立 的 ， 但 是 该 算法 
有 不 错 的 表现 ， 不 过 环 对 纠 错 的 成 功 与 否 有 着 很 大 的 影响 。 


9.6 ” LDPC 编码 


LDPC 是 一 种 以 解码 为 特点 的 编码 ， 由 于 LDPC 的 性 质 主 要 由 H 甜 
阵 决 定 ， 一 般 先 确定 H 和 矩阵 后 ， 反 推 回 生成 矩阵 G。 


H 和 矩阵 构建 时 候 ， 应 当 注 意 : 
1) 保持 稀 葡 。 每 行 每 列 里 1 的 个 数 要 固定 ， 或 者 接近 固定 。 
2) 考虑 到 生成 矩阵 的 计算 复杂 度 。 


3) 保持 随机 性 。 减少 H 矩 阵 里 小 环 的 个 数 。 图 9-25 展 示 了 一 个 长 
为 4 的 小 环 〈(b 世 点 、c 节 点 和 连 线 组 成 的 环 ) 。 


图 9-25 ”Tanner 图 上 的 一 个 小 环 


显然 这 两 个 b 廊 点 共同 参与 了 两 个 相同 的 校 验 方程 。 我 们 叫 它 们 双 
胞 胎 ， 对 bit-flipping 而 言 ， 假 如 它们 之 间 有 一 个 错误 ， 我 们 将 无 法 对 
错误 进行 定位 。 对 和 积 算法 而 言 ， 环 越 长 ，BP 算 法 效 采 越 好 。 


天 于 LDPC 编 码 的 其 他 介绍 ， 读 者 可 以 参阅 最 新 的 学 术 成 果 ， 在 
此 不 作 展 开 。 


9.7 LDPC 在 SSD 中 的 应 用 


本 万 介绍 NAND 纠 错 模 型 ， 以 及 LDPC 在 SSD 中 的 纠 错 流 程 。 


9.7.1 NAND 会 出 错 


在 本 书 第 1 章 中 ， 我 们 知道 ， 纠 错 能 力 是 一 个 SSD 质 量 的 重要 指 
标 。 最 开始 的 NAND 每 个 存储 单元 只 放 一 个 bit， 叫 SLC， 后 来 又 有 了 
MLC， 现 在 主流 的 是 TLC 。 在 存储 密度 不 断 增 加 的 同时 ， 器 件 尺 寸 变 
小 ， 存 储 单元 电气 耦合 性 变 得 很 复杂 。 比 如 氧化 层 变 得 很 溥 ， 比 如 读 
取 单 个 bit 需 要 的 读 电 压 控 制 能 力 更 精密 等 ， 总 的 来 襄 ，NAND flash 更 
容易 出 错 了 ， 或 者 说 NAND 上 的 噪声 增加 了 。 


RBER (Raw Bit Error Rate) 是 衡量 NAND 质 量 的 重要 参数 。 给 定 
RBER， 可 以 比较 各 种 纠 销 算法 的 有 效 性 ， 如 图 9-26 所 示 。 


10? 


"—— — ———— —— —'À 


c 


aa 


Decoding Failure Probbillty 


== BCH code 


LDPC code ( hard-drcision sensing ) 


== [| DPC code (six extra sensing levels) 


105 | 
0.02 0.018 0.016 0.014 0.012 0.01 0.008 0.006 0.004 
Raw Bit Error Rate 
图 9-26 ”曲线 从 右 到 左 依次 是 BCH、LDPC 硬 判决 算法 、LDPC 软 判决 
算法 ， 纵 轴 表 示 纠 错失 败 的 概率 ， 横 轴 表 示 RBER 


可 以 看 到 ，LDPC 软 判决 算法 由 于 有 更 多 的 信道 信息 ， 相 对 于 BCH 
和 LDPC 便 判决 算法 更 有 优势 。 


9.72 NAND 纠 错 模型 


NAND 的 基本 特性 请 参阅 第 3 章 。 我 们 存储 进 NAND 的 信息 通过 电 
子 储存 起 来 ， 读 的 时 候 通 过 探测 器 件 储存 的 电子 多 少 来 恢复 数据 。 


言 息 0 和 1 在 NAND 上 的 电压 分 布 图 (示意 图 ) 如 图 9-27 所 示 ， 以 
SLC 为 例 ， 该 分 布 可 以 通过 大 量 的 数据 探测 出 来 。 坚 线 的 横 坐 标 值 对 应 
NAND 的 读 取 阅 值 电压 。 可 见 ， 对 于 1 的 概率 分 布 在 阐 值 电压 右 侧 的 将 
会 被 NAND 硬 判决 成 0， 从 而 导致 bit 翻 转 。 


通过 调节 不 同 的 阐 值 电压 来 对 NAND 进 行 多 次 读 取 ， 可 以 获得 额 
外 的 信息 《得 到 靖 值 电压 在 哪个 区 间 ) ， 如 图 9-28 所 示 。 利 用 概率 论 的 
知识 ， 可 以 建立 统计 模型 。 


图 9-27 DISTR 竖 线 的 横 坐 标 值 对 应 国 值 电 
E 


图 9-28 ”多 次 调整 读 取 电压 


假设 写 入 的 信息 为 XxX，X 取 值 {0，1}， 其 阐 值 电压 为 Y， 调 节 读 取 
电压 靖 值 后 ， 根 据 读 出 值 将 整个 区 域 分 成 了 4 个 区 间 。 


图 9-28 所 示 的 左右 两 条 曲线 分 别 为 p (Y|X-1) Mp (Y|X-0) 的 曲 
线 。 根 据 之 前 和 积 算法 的 介绍 ， 我 们 感 兴趣 的 是 : P (X[Y-A) , P 
(ZIY-B) , P= (X|Y-O) , P (X|Y-D) 。 知 道 这 几 个 概率 后 ，LDPC 
软 判 决算 法 (如 和 积 算法 ) 就 可 以 工作 了 。 根 据 前 面 对 条 件 概率 和 贝 
叶 斯 公式 的 复习 ， 下 面 的 工作 交 给 读者 研究 。 


9.73 ”LDPC 纠 错 流程 


LDPC 在 SSD 中 的 纠 错 流程 如 图 9-29 所 示 ， 值 得 注意 的 是 ，NAND 
硬 判决 、 数 据 传输 到 控制 器 ， 以 及 硬 判决 解码 这 几 个 过 程 的 速度 都 很 
"o JOH ERU 传输 数据 很 多 次 ， 所 以 会 对 SSD 的 性 能 产生 
:好 的 影响 。 


NAND 健 判 决 存储 信息 


数据 传输 到 控制 大 


LDPC 的 健 判 决 解码 


LDPC 软 判决 该 


软 判 决 数 据 传 输 到 控制 如 


LDPC 软 判 决 解码 


成 功 结束 
图 9-29 ”LDPC 纠 错 流程 
为 了 提高 性 能 ， 一 种 普遍 的 优化 是 ， 把 LDPC 软 判决 的 分 辨 率 变 


成 动态 可 调 ， 这 样 只 有 在 最 坏 的 情况 下 ， 才 需要 最 高 的 分 辨 率 去 读 。 
， 软 判决 读 和 软 判 决 传输 数据 的 时 间 开 销 将 大 幅 
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